RAHMAT, FIRMAN AL (2026) STUDI EKSPERIMENTAL LIP-READING VOKAL BAHASA INDONESIA MENGGUNAKAN PENDEKATAN VISUAL-ONLY DAN MULTIMODAL AUDIO-VISUAL. S1 thesis, Universitas Mercu Buana Jakarta.
|
Text (HAL COVER)
Cover.pdf Download (471kB) | Preview |
|
|
Text (BAB I)
BAB 1.pdf Restricted to Registered users only Download (109kB) |
||
|
Text (BAB II)
BAB 2.pdf Restricted to Registered users only Download (649kB) |
||
|
Text (BAB III)
BAB 3.pdf Restricted to Registered users only Download (450kB) |
||
|
Text (BAB IV)
BAB 4.pdf Restricted to Registered users only Download (792kB) |
||
|
Text (BAB V)
BAB 5.pdf Restricted to Registered users only Download (104kB) |
||
|
Text (DAFTAR PUSTAKA)
Daftar Pustaka.pdf Restricted to Registered users only Download (167kB) |
||
|
Text (LAMPIRAN)
Lampiran.pdf Restricted to Registered users only Download (551kB) |
Abstract
This study aims to develop and evaluate an Indonesian vowel recognition system based on lip-reading using visual-only and multimodal audio-visual approaches. The main challenge in lip-reading lies in the limitation of visual information, which causes ambiguity among vowels, especially those with similar lip configurations. Therefore, this research integrates geometric visual features of the lips and audio features to improve classification accuracy. The research employs a quantitative experimental method with a comparative experimental design. The dataset was obtained through webcam recordings of vowel pronunciations /a/, /i/, /u/, /e/, and /o/. Video data were processed using MediaPipe Face Mesh to extract lip landmarks and compute geometric features, while audio data were analyzed using statistical and spectral features. Visual and audio features were combined using a featurelevel fusion approach. Classification was performed using Logistic Regression, Support Vector Machine, and Random Forest algorithms with an 80:20 training– testing data split. The results show that the visual-only approach achieved a maximum accuracy of 48.48% using the Random Forest model. In contrast, the multimodal approach significantly improved performance, reaching 98.67% accuracy with SVM and 100% with Random Forest. The F1-score also consistently increased across all models. In conclusion, the integration of audio and visual features effectively enhances the performance of lip-reading systems for Indonesian vowel classification. The multimodal approach outperforms the visual-only method and demonstrates strong potential for further development in audio-visual speech recognition systems. Keywords: lip-reading, vowel recognition, multimodal audio-visual, machine learning, geometric features Penelitian ini bertujuan untuk mengembangkan dan mengevaluasi sistem pengenalan vokal Bahasa Indonesia berbasis lip-reading menggunakan pendekatan visual-only dan multimodal audio-visual. Permasalahan utama dalam lip-reading adalah keterbatasan informasi visual yang menyebabkan terjadinya ambiguitas antar vokal, terutama pada vokal yang memiliki konfigurasi bibir yang serupa. Oleh karena itu, penelitian ini mengintegrasikan fitur visual geometris bibir dan fitur audio untuk meningkatkan akurasi klasifikasi. Metode penelitian yang digunakan adalah kuantitatif eksperimental dengan desain eksperimen komparatif. Dataset diperoleh melalui perekaman pengucapan vokal /a/, /i/, /u/, /e/, dan /o/ menggunakan webcam. Data video diproses dengan MediaPipe Face Mesh untuk mengekstraksi landmark bibir dan menghitung fitur geometris, sedangkan data audio dianalisis menggunakan fitur statistik dan spektral. Fitur visual dan audio kemudian digabungkan menggunakan pendekatan feature-level fusion. Proses klasifikasi dilakukan menggunakan algoritma Logistic Regression, Support Vector Machine, dan Random Forest dengan pembagian data latih dan data uji sebesar 80:20. Hasil penelitian menunjukkan bahwa pendekatan visual-only menghasilkan akurasi maksimum sebesar 48,48% pada model Random Forest. Sementara itu, pendekatan multimodal mampu meningkatkan akurasi secara signifikan hingga mencapai 98,67% pada model SVM dan 100% pada model Random Forest. Selain itu, nilai F1-score juga mengalami peningkatan yang konsisten pada seluruh model. Kesimpulan dari penelitian ini menunjukkan bahwa integrasi fitur audio dan visual secara efektif meningkatkan performa sistem lip-reading dalam mengklasifikasikan vokal Bahasa Indonesia. Pendekatan multimodal terbukti lebih unggul dibandingkan visual-only dan berpotensi dikembangkan lebih lanjut dalam sistem pengenalan ujaran berbasis audio-visual. Kata Kunci: lip-reading, pengenalan vokal, multimodal audio-visual, machine learning, fitur geometris
Actions (login required)
![]() |
View Item |
