Speech Recognition

26 Nov
Speech Recognition

Speech Recognition

Speech Recognition ? Dont you understand that mean, do you?
Speech Recognition, bila dibahasa indonesiakan artinya pengenalan suara.

Speech Recognition adalah proses konversi sebuah sinyal akustik, yang ditangkap oleh microphone atau telepon, untuk merangkai kata kata. Kata – kata yang dikenali bisa jadi sebagai hasil akhir, untuk sebuah aplikasi seperti command & control, penginputan data, dan persiapan dokumen.

Speech recognizer yang pertama keluar di tahun 1952. Salah satu perangkat speech recognizer adalah IBM Shoebox, yang dikeluarkan pada 1963 melalui New York World’s Fair.

Speech Recognition di windows 7 membuatmu bisa memerintah PC dengan suara anda dengan kemampuan untuk mendikte hampir ke berbagai aplikasi Anda dapat mendikte dokumen dan email dan berinternetan ria dengan mengatakan apa yang anda lihat. Windows 7 memang benar – benar modern dan menggunakan pemrograman yang canggih !

Speech Recognition hanya tersedia di bahasa Inggris, Perancis, Spanyol, Jerman, Jepang, China. Gimana dengan anda sekarang? tertarikkah anda untuk mencoba fitur unik yang satu ini? Kabari saya ya kalo sudah mencobanya,,heehe..

Tips & Trik Menggunakan Speech Recognition

Sebelum anda menggunakan fitur ini, ada beberapa hal yang harus dilakukan. Tidak seperti mouse dan keyboard, dimana tekanan jari dikonversikan ke tekanan elektronik konstan, sedangkan suara memiliki variasi – variasi. Jadi software-nya perlu dilatih. Dilatih? Baru denger yah ada software dilatih.
Oke lanjuut…

* Pertama – tama, ada kabar tentang hardware yang digunakan. Yaitu membutuhkan microphone yang bagus. Hindarilah microphone yang murah karena biasanya mereka menimbulkan berbagai suara. Saya sendiri menggunakan merk Logitech headset yang udah microphone dan speaker yang ada fitur clear chat-nya (tidak bermaksud promosi, hanya kasih tau pengalaman saja). Sehingga tidak menimbulkan kesan bising.
* Kedua, buatlah voice profile dan latihlah komputer untuk mengidentifikasi suara dan pronouncesnya. Tenang saja, windows sudah menyertakan speech training tutorialnya kok…Caranya:

-> Klik the Start button

-> Klik Control Panel

-> Klik Ease of Access

-> Klik Speech Recognition

-> Klik Take Speech Tutorial

Kelemahan Speech Recognition

Silakan coba software tersebut. Sangat mungkin anda tidak dapat mencapai akurasi yang dijanjikan tersebut. Mengapa?

  • Mungkin anda menggunakan mikrofon murahan, sehingga banyak noise yang masuk
  • Mungkin lingkungan sekitar anda terlalu banyak noise, misalnya di ruangan bersama kantor yang sangat gaduh, atau bahkan di dalam mobil dimana banyak suara dari luar mobil
  • Mungkin logat daerah anda sangat kental, sehingga anda tidak dapat mengucapkan ucapan-ucapan bahasa Inggris tersebut dengan benar, atau ….
  • Mungkin anda mengucapkannya dengan latar belakang musik kesukaan anda, walaupun volumenya tidak terlalu besar.

Nah, itulah sejumlah kelemahan speech recognition yang ada. Akurasi yang dijanjikan pada prinsipnya bisa dipercaya, tapi kita harus sadar kondisi idealnya untuk mencapai akurasi tersebut. Speech Recognition yang ada masih rawan terhadap noise, baik noise yang benar-benar berupa gangguan (misalnya kegaduhan) atau noise yang indah, misalnya Phil Collins sedang menyanyi di belakang kita. Speech recognition bekerja dengan cara mencari kemiripan dengan library potongan kata yang ada di dalam databasenya (corpus). Ketika sebuah sistem dilatih dengan korpus British English, akan sulit mengenali ucapan Inggris-Jawa, Inggris-Sunda, Inggris-Cina, dan sebagainya. Walaupun sama-sama bahasa Inggris.

Jadi, kembali lagi ke awal pembicaraan kita. Speech Recognition yang ada saat ini masih sulit (bukan tidak mungkin) untuk diaplikasi pada aplikasi yang diharapkan dapat mengenali seluruh kata. Namun, sangat mungkin untuk digunakan dalam aplikasi yang jumlah kosa katanya terbatas. Mengapa? Mengidentifikasikan, katakanlah 40 kata jauh lebih mudah dari pada mengidentifikasikan 100 ribu kata. Banyak aplikasi dengan jumlah kata terbatas yang sudah menggunakan teknologi ini untuk layanan telekomunikasi.

Telinga dan Otak Manusia sebagai prosesornya mempunyai kemampuan yang lebih superior. Manusia dengan mudah memisahkan antara pembicara dengan suara musik di latar belakang, asal suara musik tersebut tidak melampaui intensitas tertentu yang mengganggu. Komputer masih sangat sulit melakukan itu. Bahkan manusia mempunyai kemampuan untuk fokus (berusaha fokus). Misalkan dalam satu keramaian konser musik, anda berbicara dengan teman di sebelah, masih bisa memahami apa yang diucapkan. Jangan berharap sistem Speech Recognition bisa melakukan itu!!!

Sumber:

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: