Sunday, March 3, 2019

Learning Speech Recognition (part 4)

Learning Speech Recognition (part 3)

Pada Part 3 ini akan dibahas tentang tahap selanjutnya di speech recognition. Komponen yang akan dibahas pada artikel ini adalah Phonem, pembuatan lexicon (WSFT), dan akhirnya menjadi kata.

Fonem

Ketika berbicara tentang fonem, terdapat komponen-komponen kebahasaan lainnya dalam sebuah ucapan. Dalam kamus KBBI v5 kata fonem memiliki arti sebagai berikut: Fonem adalah satuan bunyi terkecil yang mampu menunjukkan kontras makna (misalnya / h/ adalah fonem karena membedakan makna kata harus dan arus, /b/ dan /p/ adalah dua fonem yang berbeda karena bara dan para beda makna).

Fonem merupakan satuan terkecil dari bunyi yang menyusun komponen yang lain. Terdapat Silabel — Morfem — kata — frasa — kausa — kalimat — paragraf — wacana pada sebuah komponen kebahasaan. Dalam bahasa Indonesia masih terdapat beberapa pebedaan tentang jumlah keseluruhan fonem. Ada yang menyebut 33 fonem, 37 fonem, maupun hingga 42 fonem. Berikut daftar fonem yang ada dibahasa indonesia

penjelasan lebih lanjut mengenai fonem ini bisa dilihat di artikel ini dan link github berikut.

Lexicon

Setelah mengetahui tentang fonem, yang merupakan komponen terkecil dari satuan bunyi. Lalu, bagaimana caranya mengumpulkan fonem-fonem menjadi kata yang agar lebih mudah untuk dibaca dan diketahui artinya kemudian? Sebelum itu, ada baiknya diketahui bentuk dari lexicon itu. Contohnya (link) :

dia : d i a

aku : a k u

rasa : r a s a

dengan : d e ng a n

punya : p u ny a

dsb

jadi lexicon itu merupakan kumpulan fonem yang membentuk kata atau dalam kata lain, cara baca dari setiap kata. Dalam bahasa indonesia terdapat sekitar 60000 hingga 80000 kata yang tercatat dalam KBBI V5 (selain kata gabungan, frasa), belum lagi ditambah dengan kata-kata tidak baku.

Seluruh kata tersebut kemudian dibuat menjadi graph dengan setiap node nya merupakan fonem dari kata itu. Berikut gambar yang akan menjelaskan graph yang dimaksud.

graph diatas dapat dibuat menggunakan tools dari opensft dengan command berikut (link1) (link2).

$ fstcompile --isymbols=ascii.syms --osymbols=wotw.syms >graf_kata.fst <<EOF

> 0 1 a aku
> 1 2 k <epsilon>
> 2 3 u <epsilon>
> 0 4 d dengan
> 4 5 e <epsilon>
> 5 6 ng <epsilon>
> 6 7 a <epsilon>
> 7 3 n <epsilon>
> 0 8 p punya
> 8 9 u <epsilon>
> 9 10 ny <epsilon>
> 10 3 a <epsilon>
> 3
> EOF

lalu generate gambar jpg:

$ fstdraw --isymbols=ascii.syms --osymbols=wotw.syms -portrait graf_kata.fst | dot -Tjpg >graf_kata.jpg

Cara lain untuk membuat model graf agar lebih mudah dapat mengikuti tutorial berikut ini (link). Berikut tahap-tahapannya agar dihasilkan graf yang lebih efisien. kita dapat menggunakan fstdeterminize, fstminimize, dan fstarcsort dari tools openfst.

preparing data dari corpus yang ada. Buat daftar phonem dan daftar kata.
generate plain data untuk pembuatan graf fst
generate graf tahap 1 (buat graf untuk masing-masing kata)

4. generate graf tahap 2 (optimasi kata yang beririsan)

5. generate graf tahap 3 (optimasi kata yang beririsan)

Calculate WSFT

Untuk melakukan penggabungan Graf, optimasi, dan melakukan operasi-operasi lainnya seperti contoh diatas, terdapat beberapa Algoritma pada WFST ini. Mulai dari Composition, Epsilon-removal, Determinization, Weight-pushing, hingga Minimization (link). Sebelumnya akan dibahas dahulu tentang pembobotan yang ada di WSFT dikenal dengan nama lain Semirings, beberapa variasi dari weight pada FST akan dijelaskan dari tabel berikut (link):

Jenis pembobotan tipe Boolean digunakan untuk automata tanpa bobot yang familiar (lihat tropical).
Jenis pembobotan tipe Real disesuaikan ketika transisi bobot mewakili probabilitas.
Jenis pembobotan tipe Log disesuaikan ketika transisi bobot mewakili negatif log probabilitas.
Jenis pembobotan tipe Tropical disesuaikan untuk operasi shortest path dan identik untuk log kecuali menggunakan operasi min dan plus.

T. shinozaki (Weight of Path, Tropical Weight)

satu hal lagi yang harus dibahas sebelum pebahasan algoritma dari WSFT adalah mengetahui perbedaan antara Transducer dan Acceptors (link page6).

“Definisi A WFST is defined as an 8-tuple, T = (Σ, !, Q, I, F, E, λ, ρ). Here Σ represents the finite alphabet of input symbols, ! represents the finite output alphabet, Q represents the finite set of states, I ⊆ Q the set of initial states, F ⊆ Q the set of final states, E ⊆ Q × (Σ ∪ {#}) × (! ∪ {#}) × K × Q a finite set of state-to-state transitions, λ : I → K the initial weight function, and ρ : F → K the final weight function mapping F to K .”

WSFA hanyalah sebuah WSFT, hanyasaja label output yang dihilangkan.
Demikian pula FSA dan FST yang hanya tidak memiliki bobot.

Selanjutnya akan dibahas beberapa algoritma yang penting pada WSFT, dapat kita gambarkan seperti diagram dibawah ini.

Lim Zhi Hao, slides (Basic Operations for WFST)

Composition : operasi ini digunakan untuk melakukan kombinasi antar dua transduser yang terkait.Cara kerja dari operasi ini dapat dilihat di link berikut (link1). Sedangkan contoh soal penyelesaian dengan operasi composition ini dapat dilihat juga di link video berikut (link2).

2. Determinization : operasi yang digunakan unutk menghilangkan ambiguitas dari path input. Tujuannya berguna untuk meningkatkan efisiensi dan tuga meningkatkan kecepatan runtime.

3. Epsilon-Removal : operasi ini digunakan untuk menghilangkan epsilon atau input kosong. Tujuannya untuk memperkecil delay pada operasi yang sedang berlangsung.

4. Weight-Pushing : memindahkan (pushing) bobot kebagian depan atau belakang, dapat berupa enumpukkan atau mendistribusikan kemana saja unutk proses semiring.

5. Minimization : operasi yang digunakan unutk memperkecil jumlah states untuk menghasilkan versi yang minimal, dengan tetap mempertahankan nilai dari input language dan path / weight.

Sekian untuk part 3 ini, semoga untuk part 4 dan selanjutnya akan disegerakan penyelesaian penulisannnya. Mohon dukungannya ya…

Insyaallah part selanjutnya akan di bahas tentang Maximum likelihood estimation, Bayesian, inference sampling, penggunaan DNN dalam speech recognition dsb. :)

referensi:

Learning Speech Recognition (part 3)

Learning Speech Recognition (part 2)

Pada part 1, telah dibahas mengenai pengenalan awal speech recognition. Mulai dari definisi, jenis-jenis, history, penggunaan hingga bagaimana speech recognition bekerja. Artikel part 2 ini akan coba dibahas tentang komponen penyusun sistem speech recognition.

Signal to language (Andrew presentation slide)

seperti yang dilihat dari gambar diatas, sistem penyusun dari speech recognition memiliki komponen yang lumayan banyak. Mulai dari audio yang direkam hingga menghasilkan sebuah teks. Masing-masing komponen dilakukan proses yang nantinya akan menjadi komponen lain. proses-proses ini yang masih terus dikaji untuk dilakukan pembaharuan-pembaharuan yang lebik mutakhir, agar menghasilkan proses yang efisien dan akurasi yang baik. Pembahasan selanjutnya akan dijabarkan proses-proses yang terjadi dari setiap komponen. insyaallah.

Representasi suara

Pendengaran manusia ~50Hz — 20kHz (lebih umum pengetahuan tentang pendengaran manusia dimulai dari frekuensi 20Hz)
musik 50Hz — 15kHz
Suara manusia ~85Hz — 8kHz
Suara telefoni yang memiliki samping 8kHz : 300Hz — 4kHz
speech processing kontemporer lebih banyak menggunakan 16kHz 16bits/sample

https://www.audiologyonline.com/articles/comparison-music-sound-quality-between-20872

dari sini diketahui bahwa, pada suatu ketika seseorang dapat mendengar suatu suara/rekaman dengan baik. Akan tetapi ketika suara tersebut dimasukkan ke sebuah sistem rekognisi suara, sistem tidak dapat mengeluarkan transkripsi dengan baik. Hal itu dapat terjadi, dimungkinkan, karena perbedaan frekuensi yang ada.

Bagaimana suara manusia terbentuk

Suara yang dihasilkan oleh manusia memiliki proses yang unik untuk diketahui. Berikut sedikit ilustrasi bagaimana suara terbentuk.

http://ispl.korea.ac.kr/~wikim/research/speech.html

gelombang terbentuk dari perubahan tekanan udara
direalisasikan melalui eksitasi dari pita suara
dimodulasikan oleh saluran vokal
dimodulasikan oleh artikulator (lidah, gigi, bibir)
vowels diproduksi dengan sebuah saluran vokal yang terbuka
konsonan adalah penyempitan saluran vokal
dikonversi ke tegangan melalui microphone
disampling menggunakan analog to digital converter

https://www.researchgate.net/publication/271302106_Practical_Field_Overview_Voice_Quality_of_RTP_Packet_Size_Analyze_on_Codec_G729_Annexb_no_in_Low_Bandwidth_Area_of_Bangladesh

Signal to language (Senior Andrew presentation slide)

Mengetahui sifat dan jenis suara yang ada, memudahkan untuk mengetahui proses penerjemahan suara yang direkam. Suara manusia tidak dapat langsung diolah oleh komputer. Maka dari itu harus diubah kesebuah representasi agar komputer dapat mengolahnya, yaitu mengubahnya dari analog ke representasi digitallalu dilakukan ekstraksi fitur terhadap suara tersebut. Tujuan dari ekstraksi fitur suara, yaitu untuk:

membantu meningkatkan performa dari pattern recognition
mengurangi memory yang tidak perlu dan biaya pemprosesan
mencari sekumpulan parameter dari sebuah utterance yang memiliki korelasi dengan sinyal suara
menentukan informasi yang relevant dan menghilangkan informasi yang tidak dibutuhkan

Proses ekstraksi fitur pada suara

lalu bagaimana ekstraksi fitur pada suara untuk speech recognition dilakukan? secara umum, berikut proses ekstraksi fitur dilakukan:

pastikan sampling dan quantizing dari suara sudah dengan format yang benar. Biasanya untuk speech recognition digunakan sample rate 16kHz dan nilai quantizing 16 bit.

Takahiro Shinozaki lecture (32ms = 512samples/16kHz)

Selanjutnya, sinyal dibagi menjadi untuk dilakukan ekstraksi fitur. Komponen ekstraksi fiturnya tediri dari lebar (window width), shifting dan overlaping. penentuan shifting dan window width berbeda-beda, akan tetapi pada gambar diatas dilakukan shifting sebesar 10ms, dengan window width 32ms, dan overlaping sinyal sebesar 22ms.

pada presentasi Andrew (link) sekitar menit ke 12–13, mencontohkan melakukan pengolahan FFT dengan shifting sebesar 10ms, window width 35ms, dan overlapping sebesar 25ms. Jadi nilai-nilai ini masih bisa berbeda dengan kasus yang lainnya.

Biasanya lebar dari sinyal yang dijadikan frame berkisar antara 20ms–40ms per frame. Hal tersebut dikarenakan, jika lebar terlalu pendek maka tidak mendapatkan estimasi spektral yang baik, dan juga ketika lebarnya terlalu besar maka perubahan terlalu sering disetiap frame yang ada. (link)

tahap terakhirnya adalah terbentuknya “frame” yang direpresentasikan dengan vector. Frame ini akan digunakan untuk proses selanjutnya dalam membuat model akustik.

Metode ekstraksi fitur dalam speech recognition

Terdapat banyak metode untuk melakukan ekstraksi fitur pada speech recognition, yang masing-masing memiliki kelebihan dan kekurangannya dan juga perbedaan property yang digunakan. Berikut merupakan beberapa metode untuk melakukan ekstraksi fitur:

Principal Component Analysis (PCA)
Linear Discriminate Analysis (LDA)
Independent Component Analysis (ICA)
Linear Predictive Coding
Filter Bank Analysis
Mel-frequency Cepstrum Coefficients (MFCC)
Kernel based feature extraction method
Wavelet
Cepstral Mean Subtraction
RASTA Filtering

Pada kesempatan kali ini mungkin akan lebih banyak dibahas tentang ekstraksi fitur menggunakan Mel-frequency Cepstrum Coefficient (MFCC). Akan tetapi, jika ada yang ingin mengetahui lebih lanjut pembahasan singkat tentang perbandingan setiap metode dapat dilihat pada paper tautan berikut (link).

Mel-frequency Cepstrum Coefficients (MFCC)

Pada MFCC ini proses dilakukan pada power spektrum dari suara yang diproses menggunakan implementasi dari Fourier Analysis. Pada Fourier analysis ini kita juga membahas tentang Fourier Transform. Kekurangan dari MFCC ini tidak terlalu robust pada tambahan noise sekarang ini, tetapi dapat di reduce dengan menormalisasi nilainya.

ketika mempelajari lebih lanjut tentang proses yang terjadi untuk mendapatkan MFCC, ada beberapa hal yang menjadikan sedikit bingung untuk orang awam (termasuk saya). Tedapat perbedaan pada salah satu komponen yang ada pada prosesnya. Jika melihat pada diagram prosesnya, terdapat satu bagian yang terdapat perbedaan dibeberapa referensi, yaitu penggunaan FFT, DFT, dan DCT.

(Diagram 1 MFCC) Takahiro Shinozaki lecture

(Diagram 2 MFCC) https://www.researchgate.net/publication/262793706_A_Review_on_Feature_Extraction_and_Noise_Reduction_Technique (2014)

(Diagram 3 MFCC) https://www.researchgate.net/publication/318668903_Emotion_Recognition_from_Chinese_Speech_for_Smart_Affective_Services_Using_a_Combination_of_SVM_and_DBN (2017)

Setelah mencoba untuk sedikit mencari, akhirnya mendapatkan penjelasan yang cukup dipahami, tentang perbedaan ketiga jenis metode tersebut. Berikut link-nya (link). Ketiga algoritma itu sama-sama merupakan sebuah transformasi linier yang memiliki input-an sebuah sinyal (complex/real) dari sebuah panjang sinyal tertentu dan menghasilkan output.

DFT (discrete Fourier Transform): teorema pada pengolahan sinyal kompleks.
FFT : algoritma dari DFT
DCT (discrete cosine transform): teorema pada pengolahan sinyal real.

setelah melihat di (satu) forum yang ada, lebih banyak orang yang merekomendasikan menggunakan DCT dibandingkan yang lainnya. (link1) (link2). Hal tersebut dapat terlihat dari banyaknya tools populer yang menggunakan DCT pada bagian dari ekstraksi fiturnya.

Ekstarksi fitur (MFCC) pada tools yang ada

Pocketsphinx (link) : 13 columns per frame
kaldi (link) : FFT — DCT; 23 triangular overlapping bins and 13 coefficients; 25 ms frames shifted by 10ms each time
slaney (link) : FFT — DCT ;
htk (link) (link): FFT — DCT; 26 channels and 12 MFCC coefficients; shifted by 10ms each time
librosa (link): DCT;
other (link1) (link2): FFT — DCT

Saturday, January 5, 2019

Learning Speech Recognition (part 2)

Learning Speech Recognition (part 1)

Pada Intro telah dibahas tentang Speech Recognition secara umum. Part 1 ini akan dikenalkan perkembangan dari beberapa metode yang digunakan. Harapannya, artikel ini dapat memberikan pandangan secara umum bagaimana Speech Recognition bekerja.

Pendekatan untuk Pattern Matching di Speech Recognition

Sebelum membahas komponen yang terdapat pada speech recognition, ada baiknya membahas tentang metode atau pendekatan apa saja yang dapat digunakan untuk melakukan penterjemahan suara ke text. Sebenarnya metode yang digunakan ini memiliki hubungan dengan komposisi komponen yang digunakan. Terdapat lima metode yang akan coba dibahas disini. (link)

Pendekatan Template-based

Metode yang digunakan yaitu dengan cara memcocokkan suara yang tidak dikenal dengan sekompulan suara yang sudah direkam sebelumnya.

kelebihan : simple dangan melakukan implementasiannya, kesalahan karena segmentasi atau klasifikasi unit variabel yang lebih kecil secara akustik seperti fonem dapat dihindari, dan memiliki model kata yang akurat.

kekurangan : tidak bisa untuk Continuous speech recognition, model pre-rekaman suara fixed, proses komputasi yang tidak murah sejalan dengan pemanbahan kosakata.

2. Pendekatan Knowledge-Based

Pada metode ini sistem memiliki informasi tentang linguistik, fonetik dan spektogram. Informasi tersebut kemudian dijadikan fitur untuk dibuat sistem klasifikasinya. Setelah model terbentuk, terdapat mesin inferensi untuk mengimplementasikan decision tree dan mengklasifikasikan aturan yang ada.

kelebihan: pemodelan terhadap suara dilakukan secara eksplisit

kekurangan : sulit diimplementasikan dan tidak praktis serta tidak otomatis

3. Pendekatan Neural Network-Based

Metode ini menggunaakan Neural Network dalam pembuatan pemodelan untuk pengenalan suara. Jaringan saraf tiruan dalam proses pengenalan ucapan dapat dibagi menjadi bidang-bidang berikut: Pertama meningkatkan kinerja jaringan saraf tiruan. Kedua, dapat digunakan untuk mengembangkan sistem hybrid gabungan. Ketiga, metode matematika mewakili sifat unik dari jaringan saraf dan diterapkan pada bidang proses pengenalan ucapan.

kelebihan: lebih baik pada suara yang kualitas rendah, berisik, dan pembicara yang independen.

kekurangan : tidak lebih baik dari HMM ketika kosa kata yang besar.

4. Pendekatan Dynamic Time Warping (DTW) Based

Metode ini memungkinkan sistem untuk menemukan kecocokan optimum terhadap dua sekuen yang diberikan pada batasan tertentu.

kelebihan : digunakan untuk isolated word recognition dan dapat dimodifikasi ke recognize connected words.

kekurangan : tidak digunakan untuk Continuous speech recognition.

5. Pendekatan Statistical- Based

Metode ini melakukan perhitungan secara statistik dengan menggunakan metode pelatihan. Sekarang ini Speech recognition didasarkan pada akustik statistik dan Language Model. Hidden Markov Model (HMM) merupakan metode yang paling banyak digunakan dan menjadi populer. Keuntungan dari HMM ini dapat mengurangi secara signifikan waktu dan kompleksitas dari proses pengenalan dari kosakata yang besar. Penjelasan-penjelasan selanjutnya akan banyak dibahas pembahasan tentang pengenalan ucapan secara statistik dan NN based.

kelebihan : dapat dilakukan unutk kosakata yang besar.

kekuangan : memerlukan data dengan jumlah yang cukup besar untuk mendapatkan hasil yang baik

Statistical Speech Recognition

Sedikit lebih dalam pembahasan tentang metode ini. Bagaimanakan secara matematis speech recognition bekerja? Pada sistem ini sistem menggunakan probability distribution untuk modelnya.

dengan menggunakan teorema bayesian, probability terbagi menjadi dua.

karena P(O) tidak tergantung pada proses memaksimalkan W, jadi dapat diabaikan.

Deskripsi:

O : input fitur akustik
W : huruf atau kata yang akan di recognize

Akustik Model dan Language Model

Perhitungan dari akustik model dan language model mungkin akan berbeda pada setiap kasus yang ada. Pada Intro (artikel pertama) telah dibahas tentang beberapa jenis speech recognition berdasarkan tipe utterance-nya. Setiap kasus memiliki penyelesaiannya tersendiri.

beberapa contoh metode untuk melakukan proses penyelesaian dari akustik model yaitu: Gaussian distribution, Gaussian mixture model, HMM, DNN, dsb. (link) (link)

sedangkan untuk language model, yaitu: Categorical distribution, N-gram, dsb.

penjelasan lebih lanjut tentang akustik model dan language model akan dibahas pada bahasan tersendiri.

Berikut beberpa sistem pengenalan ucapan berdasarkan jenis utterance-nya :

Vowel recognition (GMM)

O: feature vector dari sebuah single frame

W: satu dari vowels (a,i,u,e,o)

Akustik model : Gaussian distribution

language model : Categorical distribution

2. Phone recognition (HMM)

O: sebuah urutan feature vectors dari sebuah segmentasi pada sebuah phonem dari ucapan

W: satu dari kumpulan phonem sebuah bahasa

akustik model : HMM

language model : Categorical distribution

3. Isolated word recognition

O: sebuah urutan dari feature vector dari sebuah segmentasi sebuah kata dalam ucapan

W: satu dari kata dalam kosakata

isolated word recognition (T. Shinozaki lecture)

akustik model : HMM

language model : Categorical distribution

4. Continuous speech recognition

O: Sebuah urutan dari feature vectors dari sebuah ucapan

W: urutan kata dari sebuah ucapan

Continuous speech (T. Shinozaki lecture)

akustik model : HMM

language model : N-gram

Bagaimana cara menghitungnya…

Soal 1

jika diketahui P(O|V) merupakan accoustic model dan P(V) adalah language model, dan diberikan table log likelihoods seperti pada table. berapakah nilai maksimal dari W

import numpy as np

am = np.array([-13.4, -10.5, -30.1, -15.2, -17.0])
lm = np.array([-1.61, -2.30, -1.61, -1.39, -1.39])

score = np.multiply(am, lm)
print(score)

maxi = score.argmax()
print("index argmax: ", maxi)
print("value argmax: ", score[maxi])

result:

[ 21.574  24.15   48.461  21.128  23.63 ]
('index argmax: ', 2)
('value argmax: ', 48.461000000000006)

2. soal 2

tabel dibawah ini menunjukan nilai bi-gram dari sebuah LM. Berapa nilai dari susunan kata berikut: “Start today sunny today sunny End” dan “Start today today sunny sunny End”

“Start today sunny today sunny End” = 1.0 * 0.6 * 0.3 * 0.1 * 0.3 * 0.6 = 0.00324

“Start today today sunny sunny End” = 1.0 * 0.6 * 0.1 * 0.3 * 0.2 * 0.6 = 0.00216

Learning Speech Recognition (part 1)

Homepage

Upgrade

Learning Speech Recognition (Intro)

kirra labs

Mar 3

Mungkin di saat sekarang, teknologi speech recognition (pengubah suara ke text) sudah tidak asing lagi bagi kaum milenial. Speech recognition atau pengenal wicara memungkinkan sebuah sistem yang dapat mengenali dan menterjemahkan apa yang dikatakan oleh manusia ke dalam bentuk text.

Pengenalan ucapan atau pengenalan wicara — dalam istilah bahasa Inggrisnya, automatic speech recognition (ASR) — adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer untuk menerima masukan berupa kata yang diucapkan. Teknologi ini memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital tersebut dengan suatu pola tertentu yang tersimpan dalam suatu perangkat. Kata-kata yang diucapkan diubah bentuknya menjadi sinyal digital dengan cara mengubah gelombang suara menjadi sekumpulan angka yang kemudian disesuaikan dengan kode-kode tertentu untuk mengidentifikasikan kata-kata tersebut. -Wikipedia-

Tony Stark (Robert Downey, Jr.) speaks to his A.I. system J.A.R.V.I.S. throughout the “Iron Man” films and “The Avengers.” (sumber)

Beberapa tipe Speech Recognition (berdasarkan utterance-nya)

Terdapat beberapa tipe sistem dalam speech recognition yang digunakan sekarang ini. Sistem ini dibedakan berdasarkan kemampuan sistem untuk menterjemahkan sebuah utterance.

Isolated Word: sistem ini membutuhkan jeda pada setiap awal dan akhir utterance. Sistem ini dapat melakukan proses pengolahan lebih dari satu kata, hanya saja membutuhkan selang jeda untuk memproses suara sebelumnya.
Connected Words: sistem ini hampir sama dengan isolated word hanya saja memungkinkan utterance yang terpisah untuk berjalan bersamaan dengan batasan yang kecil pada antar uterance-nya.
Continuous Speech: sistem ini memungkinkan seseorang untuk berbicara kesistem hampir secara natural, ketika komputer menterjemahkannya.
Spontaneous Speech: sistem ini memugkinkan untuk menterjemahkan ucapan seseorang secara natural. sistem ini mampu untuk menangani berbagai fitur ucapan senatural mugkin, seperti kata-kata yang dijalankan bersamaan.

Beberapa tipe Speech Recognition (berdasarkan model pembicaranya)

Setiap orang memiliki suara yang unik. Ketika berbicara seseorang dapat membedakan suara orang lainnya dengan mudahnya. Berbeda dengan sebuah sistem, komputer tidak mudah menterjemahkan suara dari setiap orang. Sebab dari itu speech recognition dibedakan berasarkan model pembicaranya.

Speaker Dependent Models: sistem ini dapat melakukan penterjemahan suara menjadi teks pada orang tertentu, tetapi agak sulit untuk menterjemahkan pada suara orang yang lainnya. Keuntungan sistem ini dapat dikembangkan secara mudah dan lebih akurat.
Speaker Independent Models: sistem ini memiliki kemampuan untuk menterjemahkan suara lebih general, lebih banyak orang yang dapat menggunakan sistem ini dalam sekali pengembangan. Sistem seperti ini merupakan sistem yang lebih sulit untuk dikembangkan dan lebih tidak akurat dari Speaker Dependent Models.
Speaker Adaptive Models: sistem ini dikembangkan menggunakan sistem Speaker Dependent Models, tetapi dilakukan adaptasi untuk dapat menterjemahkan suara orang yang lain dari sistem yang telah dibuat sebelumnya.

Beberapa tipe Speech Recognition (berdasarkan banyak katanya)

semakin akurat sebuah sistem yang dikembangkan berdampak pada nyamannya pengguna untuk menggunakan sebuah sistem. Artinya semakin nyaman sebuah sistem dapat ditentukan pada banyaknya kata-kata yang dapat diterjemahkan, yang pastinya semakin kompleks sistem yang harus dikembangkan. Hal lainnya yang dapat dilakukan adalah dengan menentukan target yang lebih spesifk untuk mengembangkan sistem yang lebih sederhana. berdasarkan besaran katanya, speech recognition dibedakan menjadi beberapa bagian.

Small Vocabulary: banyaknya sekitar 1 sampai 100 kata atau kalimat
Medium Vocabulary: banyaknya sekitar 101 sampai 1000 kata atau kalimat
Large Vocabulary: banyaknya sekitar 1001 sampai 10,000 kata atau kalimat
Very-large vocabulary: banyaknya lebih dari 10,000 kata atau kalimat

Perkembangan Speech Technology

Speech recognition mengalami perkembangan yang cukup signifikan selama beberapa tahun belakangan ini, semenjak kemampuan komputasi meningkat sistem ini pun semakin baik. Meskipun pengambangan sistem ini sudah dilakukan semenjak puluhan tahun yang lalu. Tipe-tipe sistem pada speech recognition yang sudah dibahas diatas menunjukan tahapan perkembangan pada teknologi ini. Berikut sejarah perkembangan teknologi speech recognition.

1784 : (3) Wofgang von Kempelen creates the Acoustic-Mechanical speech Machine in Vienna
1791 : (1) Kempelen’s talking machine
1857 : (1) Phonautograph
1876 : (1) Telephone
1879 : (3) Thomas Edison invents the first dictation machine
1900 : (1) Radio broadcast
1920 : (1) Radio Rex
1939 : (1) Vocoder
1946 : (1) ENIAC
1952 : (1) Digit recognition (3) Bell Labs releases Audrey, capable of recognizing spoken digits with 90% accuracy — but only when spoken by its inventors
1960s : (2) Dynamic Time Warping
1962 : (3) IBM Shoebox can understand 16 English words
1969 : (1) Internet
1970s : (2) Hidden Markov Models
1971 : (1) Harpy created at Carnegie Mellon University, can comprehend 1011 words and some phrases
1986 : (2) Multi-layer perceptron (3) IBM Tangora using Hidden Markov Model, predicts upcoming phonems in speech
1987–1995 : (2) Speech recognition with Neural Network
1995- 2009 : (2) Superseded by GMM
1999 : (1) Seaman
2002 : (2) Neural network feature
2006 : (2) Deep Network (Hinton, 2002) (3) The National Security Agency (NSA) starts using speech recognition to isolate key words in recorded speech
2008 : (3) Google launches a voice search app, bringing speech recognition to mobile devices
2011 : (1) Siri on iOS (3) Apple announces Siri, ushering in the age on the voice-enable digital assistance
2012 : (2) RNN for speech recognition

Bagaimana Speech Recognition bekerja

Setelah mengetahui jenis-jenis Speech recognition dan sejarah perkembanganya, hal menarik lainnya adalah bagaimana suara dapat diterjemahkan oleh sistem komputer? Beberapa tahap harus dilalui sebuah suara untuk menjadi teks yang memiliki arti.

secara sederhana penterjemahan suara menjadi teks dapat digambarkan dengan diagram diatas. Cukup banyak tahapan yang dilaluinya hingga dapat menjadi sebuah sistem speech recognition. Penjelasan tentang ini akan dibahas pada postingan berikut-berikutnya, insyaallah.

Speech Technology Problem

Perkembangan teknologi ini memang sudah dari sangat lama dan banyak permasalah yang dapat diselesaikan dengannya sampai saat ini. Akan tetapi masih banyak peneliti yang melakukan penelitian agar sebuah sistem ini semakin nyaman digunakan, yang artinya sebuah sistem harus mendekati kemampuan manusia untuk melakukan komunikasi. Ada beberapa permasalah yang berkaitan dengan speech yang masih terus dikaji.

# Automatic Speech Recognition:

Spontaneous and read speech
Large Vocabulary
In noise
Low resources
Far-field
Accent-independent
speaker adaptive

# Text to speech

Low resources
Realistic prosody

# Speaker Identification

# Speech enhancement

# Speech separation

Aplikasi Speech Recognition

Masih banyaknya permasalahan yang ada pada teknologi ini tidak membatasi kasus-kasus dikehidupan nyata untuk diselesaikan. Banyak kasus dibeberapa bidang yang sudah bisa diselesaikan oleh speech recognition.

Dictation : merupakan pengunaan yang paling banyak saat sekarang ini. Termasuk transkripsi untuk bisnis, legal, dan kebutuhan medis. Bagian yang menantang adalah penggunaan kata-kata spesial yang harus ditambahkan pada setiap domain penggunaannya, misal kata-kata unik dari kedokteran harus ditambahkan untuk penggunaan untuk transkripsi medis.
Command and control : sistem ini didesain untuk melakukan sebuah fungsi dan aksi untuk melakukan perintah kepada sistem lain. Contoh ucapan yang seperti “nyalakan lampu”, “mainkan musik pop”, dan sebagainya
Wearables : penggunaan yang melibatkan perangkat tambahan berupa device yang melekat / dekat dengan pengguna, sehingga digunakan untuk melakukan perekaman suara maupun perintah suara.
Disabilities : seseorang yang memiiki keterbatasan untuk melakukan suatu kegiatan karena tidak berfungsinya alat indra pada dirinya, dapat menggunakan sistem ini untuk mempermudah aktivitasnya. Seperti mengetik menggunakan suara atau membaca tulisan dari apa yang dikatakan seseorang.
Embedded Application & robotics : sistem ini dapat membatu manusia untuk melakukan perintah langsung kepada perangkat. Contohnya: perintah sederhana untuk menyalakan televisi.
Call center & IVR : banyak bisnis sekarang ini menggunakan teknologi untuk meningkatkan pelayanan dari setiap lininya, termasuk untuk Call Center & IVR. Kecepatan respon dan pelayanan yang akan meningkatkan kepuasa bagi konsumennya.
Medical : pembuatan rekam medis yang dilakukan secara otomatis, dapat meningkatkan perhatian dan fokus dokter terhadap pasiennya. Sehingga, ketika pasien berbicara/berkonsultasi dengan dokter, dokter hanya tinggal fokus kepermasalah utama tentang pasien tersebut.
Education : sistem ini dapat membantu seorang siswa untuk meningkatkan keampuan membaca dan berbicara dengan cara membuatnya melakukan dengan lantang.
Television : sistem pembuatan teks secara otomatis, dapat membantu penyedia saluran televisi maupun pembuat film untuk membantu penontonnya mengerti lebih dalam tentang alur dari cerita yang mereka tonton.
Car navigation : ketika berkendara seseorang tidak memiliki kesempatan lain untuk melakuka aktivitas lain. Voice command dapat membantu pengendara memberikan perintah langsung kepada sistem.
Mobile Apps : mudahnya membawa perangkat handphone dalam setiap kegiatan manusia sekarang ini, menjadikan smartphone dibuat unutk dapat melakukan banyak kegiatan, termasuk voice command dan voice-to-voice translation.