Oskar Riandi: Penemu Notula, Aplikasi Pengubah Suara Jadi Tulisan

Aplikasi mengubah data suara menjadi tulisan atau teks.

Suara.Com
Pebriansyah Ariefana
Oskar Riandi: Penemu Notula, Aplikasi Pengubah Suara Jadi Tulisan
Pakar Teknologi Bahasa, Oskar Riandi. (suara.com/Pebriansyah Ariefana)

Suara.com - Anda tidak perlu menggunakan jemari untuk mengetikan kata demi kata saat membuat sebuah tulisan. Cukup bicara atau membacakan kalimat yang ingin ditulis di hadapan laptop.  

Maka tulisan atau teks muncul otomatis sesuai dengan apa yang Anda bacakan atau bicarakan. Jika Anda seorang jurnalis, maka tidak  perlu mentranskripsi hasil wawancara Anda.

Cukup sodorkan ponsel ke narasumber, dan tulisan atau teks muncul otomatis persis seperti pernyataan yang dikeluarkan narasumber.

Teknologi seperti itu nyata adanya. Sang penciptanya bernama Oskar Riandi. Di sebuah rumah di Kompleks Lingga Indah, Bintara Jaya, Kota Bekasi, Oskar bersama 15 anak buahnya menciptakan aplikasi bernama Notula. Sebuah aplikasi yang mentranskripsi dari ucapan menjadi tulisan berdasarkan Pedoman Umum Ejaan Bahasa Indonesia yang disempurnakan secara otomatis dan saat itu juga (real time).

Ditemui suara.com di kantornya, Oskar memamerkan aplikasi tersebut. Sebuah telepon pintar layar sentuh dihubungkan ke komputer canggih melalui kabel data. Perbincangan suara.com dengan Oskar dicatat otomatis dalam layar komputer. Ponsel Oskar berfungsi sebagai ‘mic’ untuk menangkap suara.

Sampai saat ini aplikasi transkripsi otomatis Oscar sudah digunakan di beberapa lembaga negara untuk mencatat hasil rapat. Sementara aplikasi mobile sampai saat ini belum diluncurkan.

“Tapi ini sudah siap diluncurkan, hanya menunggu saja,” jelas Oskar.

Teknologi transkripsi dari suara ke teks bukan hal baru di dunia. Google dan Nuance Communications sudah lebih canggih kembangkan aplikasi itu. Namun, khusus untuk teknologi transkripsi bahasa Indonesia belum ada.

Oskar sudah mengembangkan teknologi ini sejak tahun 1992, banyak penghargaan sudah dia dapatkan. Usaha keras Oskar itu akan mengubah cara kerja seseorang di segala bidang. Namun yang lebih penting, akan banyak pengembangan teknologi baru di Indonesia dengan penemuan teknologi aplikasi transkripsi bahasa Indonesia ini.

Apa saja teknologi yang bisa dikembangkan? Sejauhmana teknologi suara dan bahasa penting untuk kehidupan manusia?

Berikut wawancara suara.com dengan Oskar:

Anda menemukan aplikasi transkipsi otomatis dengan mengubah suara menjadi teks. Bisa ceritakan soal aplikasi itu?

Betul, ini buatan anak bangsa, kami mengembangkan teknologi bahasa. Perusahaan kami akan fokus ke teknologi perubahan bahasa suara menjadi teks.

Kami menyadari betul, kalau bahasa Indonesia ini punya kita. Tapi justru yang memulai riset bahasa Indonesia dari pihak asing. Di Jepang ada 3 lembaga yang meriset bahasa Indonesia. Mereka adalah NARA Institute of Science and Technology, Advanced Telecommunications Research Institute International (perusahaan swasta di Jepang), dan National Institute of Information and Communications Technology (NICT).

Mereka melakukan riset bahasa dari teks menjadi suara. Bahkan NARA sudah bisa mentranlasi dari bahasa Indonesia ke empat bahasa daerah, Jawa, Sunda, Batak dan Bali. Mereka sudah maju sekali. Alasan mereka ingin melestarikan bahasa dunia. Sementara di Indonesia belum.

Perusahaan software asal Amerika Serikat, Nuance Communications juga melakukan riset yang sama. Bahkan sudah mengeluarkan produknya tahun 2012, namanya Dragon Dictation. Kemudian yang lebih mengerikan Google yang sudah sangat maju dan mengeluarkan produknya memerintahkan mesin cari dengan menggunakan suara.

Lalu buat orang Indonesia apakah masih perlu membuat aplikasi yang sama? Bisa saja orang Indonesia tinggal pakai dari produk itu. Saya bilang, Indonesia masih perlu untuk membuat. Karena bahasa Indonesia punya kita. Masa, untuk keperluan teknologi seperti ini, harus pakai punya Jepang. Alangkah naifnya, yang punya bahasa Indonesia tidak menguasai teknologinya. Ini masalah keualatan data suara.

Bagaimana awalnya Anda menciptakan aplikasi ini?

Saya meneliti soal suara ini sejak S1 di Jepang. Pertama-tama saya membuat aplikasi pengubah suara menjadi teks angka sampai belasan. Karena keterbatasan kemampuan komputer. Kami betul-betul tertolong dengan kemajuan komputer. Sekarang server kita rakit sendiri bisa melakukan simulasi. Apalagi saat ini ada teknologi menggunakan deep neural network, bagaimana manusia mempersepsikan sesuatu dari data-data yang pernah dia baca. Begitu juga memahami suara yang pernah saya dengar.

Untuk serius mengembangkan ini, Anda sampai mundur dari BPPT…

Saya mengundurkan diri tahun 2013.

Kenapa mundur?

Dari sisi mempercepat akselerasi dan skala agak berat jika menggunakan dana riset pemerintah. Ketika kita masuk ke industri, dananya akan lebih dari itu. Saya pertama kali lihat Nuance tahun 2012 saya shock. Karena kami merasa speed engine kami paling cepat. Ternyata tidak.

Kapan mulai serius menggarap aplikasi ini?

Tahun 2005 betul-betul saya membuatnya karena komputer sudah bagus. Awalnya saya buat untuk air ticket reservation, bagaimana memesan tiket pakai suara. Setelah itu jadi, saya mengajukan aplikasi untuk penyandang tuna rungu. Untuk penyiar TV kalau ngomong, suara di running teks. Tapi tidak bisa terlaksana, karena program pemerintah belum mengarah ke sana. Akhirnya saya membantu bagaimana penyandang cacat menggunakan computer dengan bersuara. Itu saya ajukan di 2007, tapi tidak bisa dibiayai oleh BPPT.

Tapi saya punya kenalan di salah satu swasta untuk membawa proposal saya ke Asia Pacific Telecommunity (APT). Di sana lolos dan dibuayai dengan waktu 6 bulan harus selesai. Menyelesaikan sistem komputer yang dioperasikan pakai suara. Itu dibuat dari nol. Akhirnya jadi dan disambut baik. Saat itu belum bisa untuk menulis. Baru mengoperasikan suara ke perintah. Seperti mengetik website.

Jika sampai di sana, utilisasi-nya masih rendah. Saya berpikir untuk membuat aplikasi fungsi detection untuk bahasa Indonesia. Ini saya kembangkan sendiri dengan teman-teman BPPT yang mau membantu tanpa dibayar. Maka jadilah saat itu nama aplikasinya LiSan (linux dengan lisan).

Itu yang menjadi cikal bakal aplikasi saat ini. Karena bisa dikembangkan ke berbagai fungsi. Sampai saat ini saya terus berusaha mengembangkan untuk masyarakat berkebutuhan khusus.

Teknologi seperti ini, Anda yang membuat pertama kali?

Sebenarnya ini teknologi umum. Tinggal mengganti komponen bahasanya. Lalu disesuaikan dengan kondisi lokal. Tantangannya harus ada treatment khusus. Aplikasi ini harus disesuaikan dengan kondisi lingkungan. Sehingga dalam suasana bising apapun, aplikasi ini bisa membaca suara. Tidak ada persoalan mengumpulkan suara, tapi bagaimana mesin membaca suara dalam keadaan bising. Aplikasi ini bisa belajar sendiri sehingga menyesuaikan perkembangan.

Jadi baru perusahaan Anda yang mengembangkan aplikasi ini?

Di Indonesia belum ada yang nemabang data suara ini, tapi secara de facto baru perusahaan saya yang melakukan. Tapi Google dan Nuance sudah. Tapi perusahaan Indonesia baru perusahaan saya.

Berapa aplikasi yang sudah Anda buat?

Sudah 5 aplikasi. Untuk rapat, voice biometric, speaker identification, pengganti keyboard, dan transkipsi khusus wartawan. Semua siap dipakai, tapi begitu ingin dijadikan produk massal kami tidak kuat dalam membiayai. Perlu infrastruktur sever sangat banyak dan besar. Karena mmasukan model suara tidak mudah, susunan bahasa percakapan tidak terstruktur sepeti tulisan, kata-kata spontan.  

Jadi sebelum membuat aplikasi ini, Anda berburu suara?

Betul, dari karakter suara beragam. Karena bahasa Indonesia ini sangat kompleks. Kadang bicara mencampur berbagai jenis bahasa. Makanya saya yakin kita bisa mengalahkan Google. Teknisnya, suara direkam perkata atau juga bicara spontan. Nanti suara akan dipotong dan dipilah.

Kami memasukkan suara-suara dari orang-orang yang dari suku bangsa-suku bangsa besar di Indonesia. Lalu sesuai dengan demografinya, karena orang Jawa, Sunda dan etnis tertentu lebih banyak, saya akan memasukan suara orang jawa lebih banyak. Tapi ini baru sampling, karena data kita terbatas dananya. Tapi ini harus terus berkembang.

Nuance dan Google melakukan pengumpulan suara dengan menggratiskan aplikasi suara mereka. Nuance gratis sejak 2012 dan Google sejak 2013. Kita nggak akan sanggup, apalagi perusahaan ini masih rumahan. Akan perlu sumber yang sangat besar. Jadi pantas yang main di sektor ini perusahaan raksasa semua. Jadi membutuhkan server untuk menyimpan suara yang besar sekali. Ini alasan mengapa sistem kami yang mobile belum diluncurkan ke publik. Karena kami belum sanggup menyiapkan infrastruktur yang sangat besar. 

Selanjutnya chevron_right

Berita Terkait

Terpopuler

Terkini