STUDI EKSPERIMENTAL LIP-READING VOKAL BAHASA INDONESIA MENGGUNAKAN PENDEKATAN VISUAL-ONLY DAN MULTIMODAL AUDIO-VISUAL

RAHMAT, FIRMAN AL (2026) STUDI EKSPERIMENTAL LIP-READING VOKAL BAHASA INDONESIA MENGGUNAKAN PENDEKATAN VISUAL-ONLY DAN MULTIMODAL AUDIO-VISUAL. S1 thesis, Universitas Mercu Buana Jakarta.

Preview

Text (HAL COVER)
Cover.pdf
Download (471kB) | Preview

Text (BAB I)
BAB 1.pdf
Restricted to Registered users only
Download (109kB)

Text (BAB II)
BAB 2.pdf
Restricted to Registered users only
Download (649kB)

Text (BAB III)
BAB 3.pdf
Restricted to Registered users only
Download (450kB)

Text (BAB IV)
BAB 4.pdf
Restricted to Registered users only
Download (792kB)

Text (BAB V)
BAB 5.pdf
Restricted to Registered users only
Download (104kB)

Text (DAFTAR PUSTAKA)
Daftar Pustaka.pdf
Restricted to Registered users only
Download (167kB)

Text (LAMPIRAN)
Lampiran.pdf
Restricted to Registered users only
Download (551kB)

Abstract

This study aims to develop and evaluate an Indonesian vowel recognition system based on lip-reading using visual-only and multimodal audio-visual approaches. The main challenge in lip-reading lies in the limitation of visual information, which causes ambiguity among vowels, especially those with similar lip configurations. Therefore, this research integrates geometric visual features of the lips and audio features to improve classification accuracy. The research employs a quantitative experimental method with a comparative experimental design. The dataset was obtained through webcam recordings of vowel pronunciations /a/, /i/, /u/, /e/, and /o/. Video data were processed using MediaPipe Face Mesh to extract lip landmarks and compute geometric features, while audio data were analyzed using statistical and spectral features. Visual and audio features were combined using a featurelevel fusion approach. Classification was performed using Logistic Regression, Support Vector Machine, and Random Forest algorithms with an 80:20 training– testing data split. The results show that the visual-only approach achieved a maximum accuracy of 48.48% using the Random Forest model. In contrast, the multimodal approach significantly improved performance, reaching 98.67% accuracy with SVM and 100% with Random Forest. The F1-score also consistently increased across all models. In conclusion, the integration of audio and visual features effectively enhances the performance of lip-reading systems for Indonesian vowel classification. The multimodal approach outperforms the visual-only method and demonstrates strong potential for further development in audio-visual speech recognition systems. Keywords: lip-reading, vowel recognition, multimodal audio-visual, machine learning, geometric features Penelitian ini bertujuan untuk mengembangkan dan mengevaluasi sistem pengenalan vokal Bahasa Indonesia berbasis lip-reading menggunakan pendekatan visual-only dan multimodal audio-visual. Permasalahan utama dalam lip-reading adalah keterbatasan informasi visual yang menyebabkan terjadinya ambiguitas antar vokal, terutama pada vokal yang memiliki konfigurasi bibir yang serupa. Oleh karena itu, penelitian ini mengintegrasikan fitur visual geometris bibir dan fitur audio untuk meningkatkan akurasi klasifikasi. Metode penelitian yang digunakan adalah kuantitatif eksperimental dengan desain eksperimen komparatif. Dataset diperoleh melalui perekaman pengucapan vokal /a/, /i/, /u/, /e/, dan /o/ menggunakan webcam. Data video diproses dengan MediaPipe Face Mesh untuk mengekstraksi landmark bibir dan menghitung fitur geometris, sedangkan data audio dianalisis menggunakan fitur statistik dan spektral. Fitur visual dan audio kemudian digabungkan menggunakan pendekatan feature-level fusion. Proses klasifikasi dilakukan menggunakan algoritma Logistic Regression, Support Vector Machine, dan Random Forest dengan pembagian data latih dan data uji sebesar 80:20. Hasil penelitian menunjukkan bahwa pendekatan visual-only menghasilkan akurasi maksimum sebesar 48,48% pada model Random Forest. Sementara itu, pendekatan multimodal mampu meningkatkan akurasi secara signifikan hingga mencapai 98,67% pada model SVM dan 100% pada model Random Forest. Selain itu, nilai F1-score juga mengalami peningkatan yang konsisten pada seluruh model. Kesimpulan dari penelitian ini menunjukkan bahwa integrasi fitur audio dan visual secara efektif meningkatkan performa sistem lip-reading dalam mengklasifikasikan vokal Bahasa Indonesia. Pendekatan multimodal terbukti lebih unggul dibandingkan visual-only dan berpotensi dikembangkan lebih lanjut dalam sistem pengenalan ujaran berbasis audio-visual. Kata Kunci: lip-reading, pengenalan vokal, multimodal audio-visual, machine learning, fitur geometris

Item Type:	Thesis (S1)
NIM/NIDN Creators:	41523110025
Uncontrolled Keywords:	lip-reading, pengenalan vokal, multimodal audio-visual, machine learning, fitur geometris
Subjects:	000 Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 000. Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 004 Data Processing, Computer Science/Pemrosesan Data, Ilmu Komputer, Teknik Informatika 000 Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 000. Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 006 Special Computer Methods/Metode Komputer Tertentu > 006.3 Artificial Intelligence/Kecerdasan Buatan > 006.31 Machine Learning/Pembelajaran Mesin 000 Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 060 General Organizations, Foundations, and Museology/Organisasi-organisasi Umum, dan Museologi > 069 Museology (Museum science)/Museologi > 069.3 Museum Equipment, Furniture, Furnishings/Perlengkapan Museum, Perabotan Museum > 069.32 Audio Visual Apparatus/Aparatur Audio Visual
Divisions:	Fakultas Ilmu Komputer > Informatika
Depositing User:	khalimah
Date Deposited:	26 Feb 2026 07:05
Last Modified:	26 Feb 2026 07:05
URI:	http://repository.mercubuana.ac.id/id/eprint/101190

Actions (login required)

View Item