IMPLEMENTASI ALGORITMA CONVOLUTION NEURAL NETWORKS DENGAN EKSTRASI FITUR AUDIO DALAM KLASIFIKASI EMOSI SUARA

SHOLEH, ALIF IBRAHIM (2025) IMPLEMENTASI ALGORITMA CONVOLUTION NEURAL NETWORKS DENGAN EKSTRASI FITUR AUDIO DALAM KLASIFIKASI EMOSI SUARA. S1 thesis, Universitas Mercu Buana Jakarta.

[img]
Preview
Text (HAL COVER)
01 COVER.pdf

Download (530kB) | Preview
[img] Text (BAB I)
02 BAB 1.pdf
Restricted to Registered users only

Download (109kB)
[img] Text (BAB II)
03 BAB 2.pdf
Restricted to Registered users only

Download (364kB)
[img] Text (BAB III)
04 BAB 3.pdf
Restricted to Registered users only

Download (237kB)
[img] Text (BAB IV)
05 BAB 4.pdf
Restricted to Registered users only

Download (1MB)
[img] Text (BAB V)
06 BAB 5.pdf
Restricted to Registered users only

Download (32kB)
[img] Text (DAFTAR PUSTAKA)
07 DAFTAR PUSTAKA.pdf
Restricted to Registered users only

Download (158kB)
[img] Text (LAMPIRAN)
08 LAMPIRAN.pdf
Restricted to Registered users only

Download (1MB)

Abstract

Emotional expressions in voice play an essential role in human communication, as they can convey intentions and feelings spontaneously and naturally. This research aims to recognize emotions in voice using a Convolutional Neural Networks (CNN) algorithm supported by six audio feature extraction methods, namely MelFrequency Cepstral Coefficients, Linear Predictive Coding (LPC), Melspectrogram, time-based features, pitch features, and pitch averaging. MFCC is used to extract the primary frequency information from a sound signal. At the same time, LPC serves to model the acoustic spectrum. The Mel-spectrogram visually represents the sound based on the Mel scale. At the same time, the temporal and pitch features reflect the duration and pitch patterns of the sound. The primary dataset used is the Toronto Emotional Speech Set, a standard voice emotion recognition research dataset. Testing on the TESS dataset resulted in an excellent performance with 99.52% accuracy, 0.9953 precision, 0.9952 recall, and 0.9952 F1-score. This research also tested the model on a self-collected Indonesian language dataset, with promising results of 84.29% accuracy, 0.8477 precision, 0.8429 recall, and 0.8408 F1-score. These findings show that CNN, combined with the feature extraction techniques, can effectively recognize emotions from voices in both English and Indonesian. However, further refinements are needed on the Indonesian dataset. Keywords: Emotional Voice Analysis, Audio Extraction Features, Toronto Emotional Speech Set, Indonesian Language Dataset. Ekspresi emosi dalam suara memainkan peran penting dalam komunikasi manusia, karena mampu menyampaikan maksud dan perasaan secara spontan dan alami. Penelitian ini bertujuan untuk mengenali emosi pada suara menggunakan algoritma Convolutional Neural Networks (CNN) yang didukung oleh enam metode ekstraksi fitur audio, yaitu Mel-Frequency Cepstral Coefficients (MFCC), Linear Predictive Coding (LPC), Mel-spectrogram, fitur berbasis waktu, fitur pitch dan rata-rata pitch. MFCC digunakan untuk mengekstrak informasi frekuensi utama dari sinyal suara, sedangkan LPC berfungsi untuk memodelkan spektrum akustik. Melspectrogram memberikan representasi visual dari suara berdasarkan skala Mel, sementara fitur temporal dan pitch mencerminkan pola durasi dan tinggi rendahnya nada suara. Dataset utama yang digunakan adalah Toronto Emotional Speech Set (TESS), yang merupakan dataset standar dalam penelitian pengenalan emosi suara. Pengujian pada dataset TESS menghasilkan performa yang sangat baik dengan akurasi 99,52%, presisi 0,9953, recall 0,9952, dan F1-score 0,9952. Penelitian ini juga menguji model pada dataset bahasa Indonesia yang dikumpulkan secara mandiri, dengan hasil yang menjanjikan berupa akurasi 84,29%, presisi 0,8477, recall 0,8429 dan F1-score 0,8408. Temuan ini menunjukkan bahwa CNN yang dipadukan dengan teknik ekstraksi fitur yang digunakan dapat secara efektif mengenali emosi dari suara, baik dalam bahasa Inggris maupun Indonesia, meskipun diperlukan penyempurnaan lebih lanjut pada dataset berbahasa Indonesia. Kata kunci: Analisis Suara Emosi, Fitur Ekstrasi Audio, Toronto Emotional Speech Set, Dataset Bahasa Indonesia.

Item Type: Thesis (S1)
Call Number CD: FIK/INFO. 25 064
NIM/NIDN Creators: 41520010184
Uncontrolled Keywords: Analisis Suara Emosi, Fitur Ekstrasi Audio, Toronto Emotional Speech Set, Dataset Bahasa Indonesia.
Subjects: 000 Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 000. Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 006 Special Computer Methods/Metode Komputer Tertentu > 006.3 Artificial Intelligence/Kecerdasan Buatan > 006.32 Neural Nets (Neural Network)/Jaringan Saraf Buatan
100 Philosophy and Psychology/Filsafat dan Psikologi > 120 Epistemology/Epistemologi > 128 Humankind/Filsafat Kehidupan Manusia > 128.3 Attributes and Faculties/Atribut dan Fakultas > 128.37 Emotion/Emosi
500 Natural Science and Mathematics/Ilmu-ilmu Alam dan Matematika > 510 Mathematics/Matematika > 518 Numerical Analysis/Analisis Numerik, Analisa Numerik > 518.1 Algorithms/Algoritma
600 Technology/Teknologi > 620 Engineering and Applied Operations/Ilmu Teknik dan operasi Terapan > 620.1-620.9 Standard Subdivisions of Engineering and Applied Operations/Subdivisi Standar Dari Ilmu Teknik dan operasi Terapan > 620.2 Sound and Related Vibrations/Suara, Bunyi dan Getaran yang Berkaitan
Divisions: Fakultas Ilmu Komputer > Informatika
Depositing User: khalimah
Date Deposited: 15 Mar 2025 05:04
Last Modified: 15 Mar 2025 05:04
URI: http://repository.mercubuana.ac.id/id/eprint/94909

Actions (login required)

View Item View Item