ANALYSIS OF PERFORMANCE LABELLING SENTIMENT BETWEEN K-MEANS INDOBERT AND INSET LEXICON-BASED

ARIYATMA, RAMA DONA (2025) ANALYSIS OF PERFORMANCE LABELLING SENTIMENT BETWEEN K-MEANS INDOBERT AND INSET LEXICON-BASED. S1 thesis, Universitas Mercu Buana Jakarta.

[img] Text (JURNAL MAHASISWA)
TALK+41520120064+RAMADONAARIYATMA.pdf
Restricted to Registered users only

Download (2MB)

Abstract

Sentiment analysis, a natural language processing technique, plays a key role in identifying opinions or sentiments from textual data. Accurate sentiment labelling within a dataset significantly impacts the performance of sentiment analysis models. However, manual labelling can be time-consuming. Many researchers utilize lexicon-based methods for sentiment labelling, but lexicons are often limited in reflecting topic-specific nuances, potentially leading to inaccurate sentiment representation. This inaccuracy can negatively affect classification models. Inset Lexicon (Indonesia Sentiment Lexicon) provides a pre-weighted list of sentiment words for sentiment analysis in Indonesian. This study aims to explore the use of K-means clustering as an automatic sentiment labelling technique and compare it to the performance of Inset Lexicon. For Kmeans clustering, IndoBERT is employed as the embedding model. The objective of this research is to evaluate the accuracy of automatic sentiment labelling by comparing it with actual data to assess the performance of both methods. The experiment accuracy shows that K-means with IndoBert achieves 74.79%, higher than Inset Lexicon that achieves only 59.82%. Word keys : K-means, BERT embedding, clustering, Inset Lexicon Analisis sentimen, sebuah teknik pemrosesan bahasa alami, memainkan peran penting dalam mengidentifikasi opini atau sentimen dari data teks. Pelabelan sentimen yang akurat dalam sebuah dataset sangat memengaruhi kinerja model analisis sentimen. Namun, pelabelan secara manual dapat memakan waktu. Banyak peneliti menggunakan metode berbasis leksikon untuk pelabelan sentimen, tetapi leksikon sering kali memiliki keterbatasan dalam mencerminkan nuansa topik tertentu, yang berpotensi menyebabkan representasi sentimen yang tidak akurat. Ketidakakuratan ini dapat berdampak negatif pada model klasifikasi. Inset Lexicon (Indonesia Sentiment Lexicon) menyediakan daftar kata sentimen yang telah diberi bobot untuk analisis sentimen dalam bahasa Indonesia. Studi ini bertujuan untuk mengeksplorasi penggunaan clustering Kmeans sebagai teknik pelabelan sentimen otomatis dan membandingkannya dengan kinerja Inset Lexicon. Untuk clustering K-means, IndoBERT digunakan sebagai model embedding. Tujuan penelitian ini adalah untuk mengevaluasi akurasi pelabelan sentimen otomatis dengan membandingkannya dengan data aktual untuk menilai kinerja kedua metode tersebut. Hasil eksperimen menunjukkan bahwa K-means dengan IndoBERT mencapai akurasi 74,79%, lebih tinggi dibandingkan dengan Inset Lexicon yang hanya mencapai 59,82%. Kata kunci : K-means, BERT embedding, clustering , Inset Lexicon

Item Type: Thesis (S1)
Call Number CD: JM/INFO. 25 004
NIM/NIDN Creators: 41520120064
Uncontrolled Keywords: K-means, BERT embedding, clustering , Inset Lexicon
Subjects: 000 Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 000. Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 004 Data Processing, Computer Science/Pemrosesan Data, Ilmu Komputer, Teknik Informatika
000 Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 000. Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 004 Data Processing, Computer Science/Pemrosesan Data, Ilmu Komputer, Teknik Informatika > 004.2 Systems Analysis and Computer Design, Computer Architecture, Computer Performance Evaluation/Sistem Analis dan Desain Komputer, Arsitektur Komputer, Evaluasi Daya Guna dan Performa Komputer > 004.24 Computer Performance Evaluation/Evaluasi Daya Guna dan Performa Komputer
700 Arts/Seni, Seni Rupa, Kesenian > 740 Drawing and Decorative Art/Menggambar dan Seni Dekorasi > 741 Drawing and Drawings/Gambar dan Seni Menggambar > 741.6 Graphic Design, Illustration Drawings/Teknik Menggambar Desain Grafis, Teknik Menggambar Ilustrasi > 741.69 Labels and Match Covers/Label
700 Arts/Seni, Seni Rupa, Kesenian > 780 Music/Seni Musik > 781 General Principles of Music and Musical Form/Prinsip-prinsip Umum Musik dan Bentuk-bentuk Musikal > 781.4 Techniques of Music/Teknik Musik > 781.43 Performance Techniques/Teknik Pertunjukan
Divisions: Fakultas Ilmu Komputer > Informatika
Depositing User: khalimah
Date Deposited: 01 Feb 2025 08:12
Last Modified: 01 Feb 2025 08:12
URI: http://repository.mercubuana.ac.id/id/eprint/93822

Actions (login required)

View Item View Item