APLIKASI SPEECH RECOGNITION DENGAN METODE HIDDEN MARKOV MODEL (HMM)
Citra Anindya – NIM 0608542
Program Studi Ilmu Komputer
Fakultas Pendidikan Matematika dan Ilmu Pengetahuan Alam
Universitas Pendidikan Indonesia
2009
ncietz_akhwat_lucu@yahoo.com
ABSTRAK
Teknologi Biometrik menjadi salah satu teknologi terpopuler abad ini. Bidang keamanan sering sekali menggunakan aplikasi dari berbagai macam jenis biometrik. Salah satunya adalah Voice recognition. Voice recognition memiliki 2 jenis cabang, yaitu speech recognition dan speaker recognition. Speech recognition adalah proses identifikasi suara berdasarkan kata yang diucapkan. Parameter yang dibandingkan ialah tingkat penekanan suara yang kemudian akan dicocokkan dengan template database yang tersedia. Sedangkan speaker recognition merupakan proses pengenalan suara berdasarkan orang yang berbicara. Pada makalah ini hanya akan dibahas mengenai Speech recognition karena Speaker recognition memiliki algoritma yang lebih kompleks dibandingkan speech recognition.
Metode yang akan dibahas pada bahasan mengenai aplikasi speech recognition ini adalah metode Hidden Markov Model (HMM). Secara umum prinsip kerja sistem pengenalan ucapan adalah membandingkan informasi ucapan yang ada pada referensi dengan informasi uncapan yang menjadi masukan sistem pengenal ucapan tersebut. Dan Metode Hidden Markov Model adalah metode yang sudah sering dipakai untuk bidang recognition ini.
1. PENDAHULUAN
Biometrik, termasuk di dalamnya speech recognition, secara umum digunakan untuk identifikasi dan verifikasi. Identifikasi ialah mengenali identitas seseorang, dilakukan perbandingan kecocokan antara data biometric seseorang dalam database berisi record karakter seseorang. Sedangkan verifikasi adalah menentukan apakah seseorang sesuai dengan apa yang dikatakan terhadap dirinya.
Biometrik merupakan suatu metoda untuk mengenali manusia berdasarkan pada satu atau lebih ciri-ciri fisik atau tingkah laku yang unik. Biometric Recognition atau biasa disebut dengan Sistem pengenalan biometric mengacu pada identifikasi secara otomatis terhadap manusia berdasarkan psikological atau karakteristik tingkah laku manusia. Ada beberapa jenis teknologi biometric antara lain pengenalan wajah (face recognition), pengenalan sidik jari, geometri tangan, pengenalan iris mata (iris recognition), suara (voice recognition) dan pengenalan tulisan tangan (handwriting recognition).
Metode Hidden Markov Model mulai diperkenalkan dan dipelajari pada akhir tahun 1960, metode yang berupa model statistik dari rantai Markov ini semakin banyak dipakai pada tahun-tahun terakhir terutama dalam bidang recognition (speech, face, handwriting), seperti dijelaskan oleh Lawrence R. Rabiner dalam laporannya yang berjudul “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”
Proses dalam dunia nyata secara umum menghasilkan observable output yang dapat dikarakterisasikan sebagai signal. Signal bisa bersifat diskrit (karakter dalam alfabet) maupun kontinu (pengukuran temperatur, alunan musik). Signal bisa bersifat stabil (nilai statistiknya tidak berubah terhadap waktu) maupun nonstabil (nilai signal berubah-ubah terhadap waktu). Dengan melakukan pemodelan terhadap signal secara benar, dapat dilakukan simulasi terhadap sumber dan pelatihan sebanyak mungkin melalui proses simulasi tersebut. Sehingga model dapat diterapkan dalam sistem prediksi, sistem pengenalan, maupun sistem identifikasi. Secara garis besar model signal dapat dikategorikan menjadi 2 golongan yaitu: model deterministik dan model statistikal. Model deterministik menggunakan nilai-nilai properti dari sebuah signal
seperti: amplitudo, frekuensi, fase dari gelombang sinus. Sedangkan model statistikal menggunakan nilai-nilai statistik dari sebuah signal seperti: proses Gaussian, proses Poisson, proses Markov, dan proses Hidden Markov.
Suatu model HMM secara umum memiliki unsur-unsur sebagai berikut:
a. N, yaitu jumlah state dalam model. Secara umum state saling terhubung satu dengan yang lain, dan suatu state bisa mencapai semua state yang lain dan sebaliknya (disebut model ergodic). Namun hal tersebut tidak mutlak, terdapat kondisi lain dimana suatu state hanya bisa berputar ke diri sendiri dan berpindah ke satu state berikutnya, hal ini bergantung pada implementasi dari model.
b. M, yaitu jumlah observation symbol secara unik pada tiap statenya, misalnya: karakter dalam alfabet, dimana state adalah huruf dalam kata.
c. State Transition Probability { } -> ij A a
d. Observation Symbol Probability pada state j, { } () -> j Bb k
e. Initial State Distribution -> i p p
Dengan memberikan nilai pada N, M, A, B, dan p , HMM dapat digunakan sebagai generator untuk menghasilkan urutan observasi. dimana tiap observasi t o adalah salah satu simbol dari V, dan T adalah jumlah observasi dalam suatu sequence.
2. IDENTIFIKASI POLA
2.1 Skema Utama Speech Recognition
Terdapat 4 langkah utama dalam sistem pengenalan suara :
1. Penerimaan data input
2. Ekstraksi, yaitu penyimpanaan data masukaan sekaligus pembuatan daatabase untuk ttemplate.
3. Pembandingan / pencocokan, yaitu tahap pencocokan data baru dengan data suara (pencocokan tata bahasa) pada template.
4. Validasi identitas pengguna.
2.2 Tahap Blok Speech Recognition dengan HMM
1. Tahap feature extraction
Pemfilteran sinyal suara dan mengubah sinyal suara analog ke digital.
2. Tahap tugas pemodelan
Untuk pemodelan dibuatkan suatu model HMM dari data-data yang berupa sample ucapan dari sebuah kata (berupa data digital).
3. Tahap sistem pengenalan HMM
Mendapatkan parameter-parameter yang dapat merepresentasikan sinyal suara tersebut dilakukan analisis.
2.3 Proses Pencocokan Pola Suara
Secara umum, speech recognizer memproses sinyal suara yang masuk dan menyimpannya dalam bentuk digital. Hasil proses digitalisasi tersebut kemudian dikonversi dalam bentuk spektrum suara yang akan dianalisa dengan membandingkannya dengan template suara pada database sistem. Sebelumnya, data suara masukan dipilah-pilah dan diproses satu per satu berdasarkan urutannya. Pemilihan ini dilakukan agar proses analisis dapat dilakukan secara paralel.
Proses yang pertama kali dilakukan ialah memproses gelombang kontinu spektrum suara ke dalam bentuk diskrit. Langkah berikutnya ialah proses kalkulasi yang dibagi menjadi dua bagian :
1. Transformasi gelombang diskrit menjadi array data.
2. Untuk masing-masing elemen pada array data, hitung “ketinggian” gelombang (frekuensi).
Objek permasalahan yang akan dibagi adalah masukan berukuran n, berupa data diskrit gelombang suara. Ketika mengkonversi gelombang diperlebar dengan cara memperinci berdasarkan waktu. Hal ini dilakukan agar proses algoritma selanjutnya lebih mudah dilakukan. Namun, efek buruknya ialah array of array data yang terbentuk akan lebih banyak.
3. APLIKASI
Terdapat beberapa pilihan yang dapat dilakukan selanjutnya, sesuai dengan aplikasi yang diimplementasikan, diantaranya ialah voice command. Komputer akan melakukan perintah sesuai dengan masukan pengguna. Contohnya pada aplikasi Microsoft Voice, ketika pengguna mengatakan “”Start Notepad” dengan intonasi dan tata bahasa yang sesuai, komputer akan segera melakukan proses seperti yang telah dijelaskan pada bab sebelumnya. Jika sesuai dengan daftar perintah yang tersedia, aplikasi akan memastikan kata dengan menampilkan tulisan “Do you asked me to ‘Start Notepad’ ? ‘”. Untuk memverifikasinya, pengguna cukup mengatakan “Do it”. Dan lagi-lagi proses penerimaan suara dilakukan seperti yang telah dibahas pada bab sebelumnya.
Aplikasi lainnya adalah Microsoft Dictation yang merupakan aplikasi speech-to-text, yakni menuliskan apa yang diucapkan oleh pengguna. Jika dikembangkan lebih lanjut, software ini akan sangat berguna bagi orang-orang yang mempunyai keterbatasan fisik atau gerak.
REFERENSI
1. http://www.ilmukomputer.com/
2. http://www.waskito.staff.ugm.ac.id/?p=11/
3. http://www.www.mbothe.or.id/
4. http://www.puslit2.petra.ac.id/