SHOLEH, ALIF IBRAHIM (2025) IMPLEMENTASI ALGORITMA CONVOLUTION NEURAL NETWORKS DENGAN EKSTRASI FITUR AUDIO DALAM KLASIFIKASI EMOSI SUARA. S1 thesis, Universitas Mercu Buana Jakarta.
|
Text (HAL COVER)
01 COVER.pdf Download (530kB) | Preview |
|
![]() |
Text (BAB I)
02 BAB 1.pdf Restricted to Registered users only Download (109kB) |
|
![]() |
Text (BAB II)
03 BAB 2.pdf Restricted to Registered users only Download (364kB) |
|
![]() |
Text (BAB III)
04 BAB 3.pdf Restricted to Registered users only Download (237kB) |
|
![]() |
Text (BAB IV)
05 BAB 4.pdf Restricted to Registered users only Download (1MB) |
|
![]() |
Text (BAB V)
06 BAB 5.pdf Restricted to Registered users only Download (32kB) |
|
![]() |
Text (DAFTAR PUSTAKA)
07 DAFTAR PUSTAKA.pdf Restricted to Registered users only Download (158kB) |
|
![]() |
Text (LAMPIRAN)
08 LAMPIRAN.pdf Restricted to Registered users only Download (1MB) |
Abstract
Emotional expressions in voice play an essential role in human communication, as they can convey intentions and feelings spontaneously and naturally. This research aims to recognize emotions in voice using a Convolutional Neural Networks (CNN) algorithm supported by six audio feature extraction methods, namely MelFrequency Cepstral Coefficients, Linear Predictive Coding (LPC), Melspectrogram, time-based features, pitch features, and pitch averaging. MFCC is used to extract the primary frequency information from a sound signal. At the same time, LPC serves to model the acoustic spectrum. The Mel-spectrogram visually represents the sound based on the Mel scale. At the same time, the temporal and pitch features reflect the duration and pitch patterns of the sound. The primary dataset used is the Toronto Emotional Speech Set, a standard voice emotion recognition research dataset. Testing on the TESS dataset resulted in an excellent performance with 99.52% accuracy, 0.9953 precision, 0.9952 recall, and 0.9952 F1-score. This research also tested the model on a self-collected Indonesian language dataset, with promising results of 84.29% accuracy, 0.8477 precision, 0.8429 recall, and 0.8408 F1-score. These findings show that CNN, combined with the feature extraction techniques, can effectively recognize emotions from voices in both English and Indonesian. However, further refinements are needed on the Indonesian dataset. Keywords: Emotional Voice Analysis, Audio Extraction Features, Toronto Emotional Speech Set, Indonesian Language Dataset. Ekspresi emosi dalam suara memainkan peran penting dalam komunikasi manusia, karena mampu menyampaikan maksud dan perasaan secara spontan dan alami. Penelitian ini bertujuan untuk mengenali emosi pada suara menggunakan algoritma Convolutional Neural Networks (CNN) yang didukung oleh enam metode ekstraksi fitur audio, yaitu Mel-Frequency Cepstral Coefficients (MFCC), Linear Predictive Coding (LPC), Mel-spectrogram, fitur berbasis waktu, fitur pitch dan rata-rata pitch. MFCC digunakan untuk mengekstrak informasi frekuensi utama dari sinyal suara, sedangkan LPC berfungsi untuk memodelkan spektrum akustik. Melspectrogram memberikan representasi visual dari suara berdasarkan skala Mel, sementara fitur temporal dan pitch mencerminkan pola durasi dan tinggi rendahnya nada suara. Dataset utama yang digunakan adalah Toronto Emotional Speech Set (TESS), yang merupakan dataset standar dalam penelitian pengenalan emosi suara. Pengujian pada dataset TESS menghasilkan performa yang sangat baik dengan akurasi 99,52%, presisi 0,9953, recall 0,9952, dan F1-score 0,9952. Penelitian ini juga menguji model pada dataset bahasa Indonesia yang dikumpulkan secara mandiri, dengan hasil yang menjanjikan berupa akurasi 84,29%, presisi 0,8477, recall 0,8429 dan F1-score 0,8408. Temuan ini menunjukkan bahwa CNN yang dipadukan dengan teknik ekstraksi fitur yang digunakan dapat secara efektif mengenali emosi dari suara, baik dalam bahasa Inggris maupun Indonesia, meskipun diperlukan penyempurnaan lebih lanjut pada dataset berbahasa Indonesia. Kata kunci: Analisis Suara Emosi, Fitur Ekstrasi Audio, Toronto Emotional Speech Set, Dataset Bahasa Indonesia.
Actions (login required)
![]() |
View Item |