Browsing Audio Data & Speech Recognation
Browsing merupakan aktivitas menjelajahi dunia maya (Internet) untuk
mencari informasi yang terkini tanpa batas dan tanpa birokrasi atau
dikenal juga dengan istilah surfing internet (berselancar di dunia
maya), software yang digunakan dikenal dengan nama web browser.
Beberapa contoh web browser adalah Mozilla Firefox, Internet aexplorer,
Opera, Chrome, dll.
Dalam beberapa tahun terakhir, perkembangan Internet telah didefinisikan
kembali berbagai bidang hiburan, khususnya, yaitu musik. Hari ini,
real-time Internet Real audio streaming musik dan MP3 secara teratur
dinikmati oleh jutaan pendengar. Makalah ini menyajikan multimedia yang
berpusat manusia audio (audio informasi) sistem pencarian melalui
jaringan komputer.
Karya ini juga telah diurus memainkan audio yang terus-menerus tanpa ada
data yang mengganggu dengan menerapkan mekanisme streaming dan
buffering. Arsitektur sistem client-server berikut model. Database
digunakan untuk menyimpan informasi metadata audio. Server audio yang
bertanggung jawab untuk mengambil informasi dari database untuk memenuhi
permintaan klien. Klien menyediakan antarmuka komputer manusia untuk
pengguna melalui antarmuka pengguna grafis untuk browsing, mencari dan
memainkan audio yang menarik melalui jaringan. Berdasarkan masukan klien
permintaan pengguna ke server untuk mendapatkan informasi audio
(seperti daftar film-film bahasa tertentu, daftar lagu-lagu film
tertentu dan daftar lagu berdasarkan pencocokan pengguna memasukkan teks
lirik). Audio pengambilan informasi dari basis data akan dilakukan oleh
server berbasis teks menggunakan metode pencarian.
Browsing Audio Data merupakan metode browsing jaringan yang digunakan
untuk browsing video / audio data yang ditangkap oleh sebuah IP kamera.
Sebuah komputer lokal digabungkan ke LAN (local area network) untuk
mendeteksi IP kamera. Jaringan video / audio metode browsing mencakupi
langkah-langkah sebagai berikut :
@ Menjalankan sebuah program aplikasi komputer lokal untuk mendapatkan kode identifikasi yang disimpan dalam kamera IP.
@ Transmisi untuk mendaftarkan kode identifikasi ke DDNS ( Dynamic Domain Name Server) oleh program aplikasi.
@ Mendapatkan kamera IP pribadi alamat dan alamat server pribadi
sehingga pasangan IP kamera dan kontrol kamera IP melalui kamera IP
pribadi alamat dan alamat server pribadi compile ke layanan server
melalui alamat server pribadi sehingga untuk mendapatkan video / audio
data yang ditangkap oleh kamera IP, dimana server layanan menangkap
video / audio data melalui Internet.
Browsing audio data tidak semudah browsing dokumen cetak, karena adanya
sifat temporal suara. Ketika melakukan browsing terhadap dokumen, kita
dapat dengan cepat mengalihkan fokus perhatian dengan membaca sepintas
isi dari dokumen tersebut. Kita dapat mengetahui ukuran dan struktur
dokumen, dan menggunakan memori spasial visual untuk mengingat dan
mencari spesifik topik. Namun, ketika browsing suatu rekaman audio,
kita harus berulang kali memainkan dan melompati bagian tertentu, tanpa
memainkannya, kita tidak bisa menyadari suara atau isinya. Kita harus
mendengarkan semua stream audio untuk dapat menangkap semua isinya.
Beberapa bentuk informasi yang dapat dicari (browsed) melalui internet,
yaitu: informasi berupa teks (text/plain, text/html), image (image/gif,
image/jpeg, image/png), video (video/mpeg, video/quicktime), audio
(audio/basic, audio/wav) dan application (application/msword,
application/octet-stream).
1. Pengenalan Speech Recognation
Speech recognation (ASR)
adalah suatu pengembangan teknik dan sistem yang memungkinkan komputer
untuk menerima masukan berupa kata yang diucapkan. Teknologi ini
memungkinkan suatu perangkat untuk mengenali dan memahami kata-kata yang
diucapkan dengan cara digitalisasi kata dan mencocokkan sinyal digital
tersebut dengan suatu pola tertentu yang tersimpan dalam suatu
perangkat.
Pengenalan ucapan (speech recognation)
dalam perkembangan teknologinya merupakan bagian dari pengenalan suara
(proses identifikasi seseorang berdasarkan suaranya). Pengenalan suara
sendiri terbagi menjadi du kategori, yaitu:
- Piranti pengenalan kata (word recognation) yang mampu merespon ucapan-ucapan secara indovidu atau perintah-perintah yang menggunakan teknik yang dikenal sebagai speaker verification. Pertama kali sistem akan membangkitkan suatu template untuk mengenali suara user.
- Piranti pengenalan kalimat (speech recognation)
yang mampu mengenali hubungan antar kata terucap di dalam kalimat atau
frase. Teknik - teknik statistik dipakai dalam hal pola perekaman suara
yang akan dicocokkan dengan kata-kata terucap.
2. Jenis-Jenis Pengenalan Ucapan
Berdasarkan kemampuan dalam mengenal kata yang diucapkan, terdapat 5 jenis pengenalan kata, yaitu :
♣ Kata-kata yang terisolasi : Proses pengidentifikasian kata yang hanya
dapat mengenal kata yang diucapkan jika kata tersebut memiliki jeda
waktu pengucapan antar kata
♣ Kata-kata yang berhubungan : Proses pengidentifikasian kata yang mirip
dengan kata-kata terisolasi, namun membutuhkan jeda waktu pengucapan
antar kata yang lebih singkat
♣ Kata-kata yang berkelanjutan : Proses pengidentifikasian kata yang
sudah lebih maju karena dapat mengenal kata-kata yang diucapkan secara
berkesinambungan dengan jeda waktu yang sangat sedikit atau tanpa jeda
waktu. Proses pengenalan suara ini sangat rumit karena membutuhkan
metode khusus untuk membedakan kata-kata yang diucapkan tanpa jeda
waktu. Pengguna perangkat ini dapat mengucapkan kata-kata secara natural
♣ Kata-kata spontan: Proses pengidentifikasian kata yang dapat mengenal
kata-kata yang diucapkan secara spontan tanpa jeda waktu antar kata
♣ Verifikasi atau identifikasi suara: Proses pengidentifikasian kata
yang tidak hanya mampu mengenal kata, namun juga mengidentifikasi siapa
yang berbicara
3. Prinsip Dasar Speech Recognation
Semua metode dasar proses pengenalan suara terdiri dari dua fase operasi, yaitu:
- Proses training.
Pada proses ini sistem belajar dari referensi pola yang berupa
perbedaan pola sinyal suara misal frase, kata, fonem yang akan mengisi
vocabulari dari sistem. Setiap referensi di pelajari dari kata yang
dikatakan yang kemudian disimpan dalam template dan telah mengalami
metode untuk merata-rata dan karakteristik statistik dan parameter
statistik.
- Proses recognation.
Pada proses ini sistem akan diberikan inputan yang belum diketahui dan
akan di identifikasi berdasarkan pola template yang telah didapatkan
pada proses training.
Pada umumnya, suatu sistem pengenalan suara terdiri dari beberapa modul utama, yaitu:
@ Signal processign frontend digunakan untuk mengkonversi sinyal suara kedalam bentuk sequence feature vector yang akan digunakan pada saat klasifikasi.
@ Accoustic modelling digunakan untuk memodelkan secara statistik hasil training yang telah dilakukan kedalam sebuah template.
@ Language modelling digunakan untuk memodelkan bentuk kata baik berupa kata, fonem, ataupun kalimat.
Gambar1. Blok Diagram Speech Recognation
4. Alat Pengenal Suara (Speech Recognizer)
Alat pengenal ucapan, yang sering disebut dengan speech recognizer,
membutuhkan sampel kata sebenarnya yang diucapkan dari pengguna. Sampel
kata akan didigitalisasi, disimpan dalam komputer, dan kemudian
digunakan sebagai basis data dalam mencocokkan kata yang diucapkan
selanjutnya. Sebagian besar alat pengenal ucapan sifatnya masih
tergantung kepada pengeras suara. Alat ini hanya dapat mengenal kata
yang diucapkan dari satu atau dua orang saja dan hanya bisa mengenal
kata-kata terpisah, yaitu kata-kata yang dalam penyampaiannya terdapat
jeda antar kata. Hanya sebagian kecil dari peralatan yang menggunakan
teknologi ini yang sifatnya tidak tergantung pada pengeras suara. Alat
ini sudah dapat mengenal kata yang diucapkan oleh banyak orang dan juga
dapat mengenal kata-kata kontinu, atau kata-kata yang dalam
penyampaiannya tidak terdapat jeda antar kata.
Aplikasi dari alat pengenal suara dapata ditemukan dalam berbagai bidang, diantaranya adalah:
@ Bidang komunikasi
Komando Suara
Komando Suara adalah suatu program pada komputer yang melakukan perintah
berdasarkan komando suara dari pengguna. Contohnya pada aplikasi
Microsoft Voice yang berbasis bahasa Inggris. Ketika pengguna mengatakan
“Mulai kalkulator” dengan intonasi dan tata bahasa yang sesuai,
komputer akan segera membuka aplikasi kalkulator. Jika komando suara
yang diberikan sesuai dengan daftar perintah yang tersedia, aplikasi
akan memastikan komando suara dengan menampilkan tulisan “Apakah Anda
meminta saya untuk ‘mulai kalkulator’?”. Untuk melakukan verifikasi,
pengguna cukup mengatakan “Lakukan” dan komputer akan langsung
beroperasi.
Pendiktean
Pendiktean adalah sebuah proses mendikte yang sekarang ini banyak
dimanfaatkan dalam pembuatan laporan atau penelitian. Contohnya pada
aplikasi Microsoft Dictation yang merupakan aplikasi yang dapat
menuliskan apa yang diucapkan oleh pengguna secara otomatis.
Telepon
Pada telepon, teknologi pengenal ucapan digunakan pada proses penekanan
tombol otomatis yang dapat menelpon nomor tujuan dengan komando suara.
@ Bidang kesehatan
Alat pengenal ucapan banyak digunakan dalam bidang kesehatan untuk
membantu para penyandang cacat dalam beraktivitas. Contohnya pada
aplikasi Antarmuka Suara Pengguna atau Voice User Interface (VUI)
yang menggunakan teknologi pengenal ucapan dimana pengendalian saklar
lampu misalnya, tidak perlu dilakukan secara manual dengan menggerakkan
saklar tetapi cukup dengan mengeluarkan perintah dalam bentuk ucapan
sebagai saklarnya. Metode ini membantu manusia yang secara fisik tidak
dapat menggerakkan saklar karena cacat pada tangan misalnya. Penerapan
VUI ini tidak hanya untuk lampu saja tapi bisa juga untuk
aplikasi-aplikasi kontrol yang lain.
Gambar 2 Voice User Interface (VUI)
@ Bidang militer
Pelatihan Penerbangan
Aplikasi alat pengenal ucapan dalam bidang militer adalah pada pengatur
lalu-lintas udara atau yang dikenal dengan Air Traffic Controllers (ATC)
yang dipakai oleh para pilot untuk mendapatkan keterangan mengenai
keadaan lalu-lintas udara seperti radar, cuaca, dan navigasi. Alat
pengenal ucapan digunakan sebagai pengganti operator yang memberikan
informasi kepada pilot dengan cara berdialog.
Helikopter
Aplikasi alat pengenal ucapan pada helikopter digunakan untuk
berkomunikasi lewat radio dan menyesuaikan sistem navigasi. Alat ini
sangat diperlukan pada helikopter karena ketika terbang, sangat banyak
gangguan yang akan menyulitkan pilot bila harus berkomunikasi dan
menyesuaikan navigasi dengan terlebih dahulu memencet tombol tertentu.
5. Kekurangan dan Kelebihan Alat Pengenal Suara (Speech Recognizer)
Kelebihan dari peralatan yang menggunakan teknologi ini adalah:
- Cepat.
Teknologi ini mempercepat transmisi informasi dan umpan balik dari
transmisi tersebut. Contohnya pada komando suara. Hanya dalam selang
waktu sekitar satu atau dua detik setelah kita mengkomandokan perintah
melalui suara, komputer sudah memberi umpan balik atas komando kita.
- Mudah
digunakan. Kemudahan teknologi ini juga dapat dilihat dalam aplikasi
komando suara. Komando yang biasanya kita masukkan ke dalam komputer
dengan menggunakan tetikus atau papan ketik kini dapat dengan mudahnya
kita lakukan tanpa perangkat keras, yakni dengan komando suara.
Sedangkan kekurangan dari peralatan menggunakan teknologi ini adalah:
- Rawan
terhadap ganguan. Hal ini disebabkan oleh proses sinyal suara yang
masih berbasis frekuensi. Ketika sebuah informasi dalam sinyal suara
mempunyai komponen frekuensi yang sama banyaknya dengan komponen
frekuensi gangguannya, akan sulit untuk memisahkan gangguan dari sinyal
suara
- Jumlah
kata yang dapat dikenal terbatas. Hal ini disebabkan pengenal ucapan
bekerja dengan cara mencari kemiripan dengan basis data yang dimiliki.
.
Sumber:
http://pjj-vedca.depdiknas.go.id/literasi/modul/Browsing_Inte