ARIYATMA, RAMA DONA (2025) ANALYSIS OF PERFORMANCE LABELLING SENTIMENT BETWEEN K-MEANS INDOBERT AND INSET LEXICON-BASED. S1 thesis, Universitas Mercu Buana Jakarta.
![]() |
Text (JURNAL MAHASISWA)
TALK+41520120064+RAMADONAARIYATMA.pdf Restricted to Registered users only Download (2MB) |
Abstract
Sentiment analysis, a natural language processing technique, plays a key role in identifying opinions or sentiments from textual data. Accurate sentiment labelling within a dataset significantly impacts the performance of sentiment analysis models. However, manual labelling can be time-consuming. Many researchers utilize lexicon-based methods for sentiment labelling, but lexicons are often limited in reflecting topic-specific nuances, potentially leading to inaccurate sentiment representation. This inaccuracy can negatively affect classification models. Inset Lexicon (Indonesia Sentiment Lexicon) provides a pre-weighted list of sentiment words for sentiment analysis in Indonesian. This study aims to explore the use of K-means clustering as an automatic sentiment labelling technique and compare it to the performance of Inset Lexicon. For Kmeans clustering, IndoBERT is employed as the embedding model. The objective of this research is to evaluate the accuracy of automatic sentiment labelling by comparing it with actual data to assess the performance of both methods. The experiment accuracy shows that K-means with IndoBert achieves 74.79%, higher than Inset Lexicon that achieves only 59.82%. Word keys : K-means, BERT embedding, clustering, Inset Lexicon Analisis sentimen, sebuah teknik pemrosesan bahasa alami, memainkan peran penting dalam mengidentifikasi opini atau sentimen dari data teks. Pelabelan sentimen yang akurat dalam sebuah dataset sangat memengaruhi kinerja model analisis sentimen. Namun, pelabelan secara manual dapat memakan waktu. Banyak peneliti menggunakan metode berbasis leksikon untuk pelabelan sentimen, tetapi leksikon sering kali memiliki keterbatasan dalam mencerminkan nuansa topik tertentu, yang berpotensi menyebabkan representasi sentimen yang tidak akurat. Ketidakakuratan ini dapat berdampak negatif pada model klasifikasi. Inset Lexicon (Indonesia Sentiment Lexicon) menyediakan daftar kata sentimen yang telah diberi bobot untuk analisis sentimen dalam bahasa Indonesia. Studi ini bertujuan untuk mengeksplorasi penggunaan clustering Kmeans sebagai teknik pelabelan sentimen otomatis dan membandingkannya dengan kinerja Inset Lexicon. Untuk clustering K-means, IndoBERT digunakan sebagai model embedding. Tujuan penelitian ini adalah untuk mengevaluasi akurasi pelabelan sentimen otomatis dengan membandingkannya dengan data aktual untuk menilai kinerja kedua metode tersebut. Hasil eksperimen menunjukkan bahwa K-means dengan IndoBERT mencapai akurasi 74,79%, lebih tinggi dibandingkan dengan Inset Lexicon yang hanya mencapai 59,82%. Kata kunci : K-means, BERT embedding, clustering , Inset Lexicon
Actions (login required)
![]() |
View Item |