PUTRI, NADHIRA SABINA (2026) KLASIFIKASI BERITA HOAKS BERBASIS ENSEMBLE LEARNING (NAÏVE BAYES, LOGISTIC REGRESSION, DAN RANDOM FOREST) DENGAN TF-IDF. S1 thesis, Universitas Mercu Buana Jakarta - Menteng.
|
Text (COVER)
41822010150-Nadhira Sabina Putri-01 Cover - Nadhira Sabina.pdf Download (834kB) |
|
|
Text (BAB 1)
41822010150-Nadhira Sabina Putri-02 Bab 1 - Nadhira Sabina.pdf Restricted to Registered users only Download (239kB) |
|
|
Text (BAB 2)
41822010150-Nadhira Sabina Putri-03 Bab 2 - Nadhira Sabina.pdf Restricted to Registered users only Download (534kB) |
|
|
Text (BAB 3)
41822010150-Nadhira Sabina Putri-04 Bab 3 - Nadhira Sabina.pdf Restricted to Registered users only Download (248kB) |
|
|
Text (BAB 4)
41822010150-Nadhira Sabina Putri-05 Bab 4 - Nadhira Sabina.pdf Restricted to Registered users only Download (395kB) |
|
|
Text (BAB 5)
41822010150-Nadhira Sabina Putri-06 Bab 5 - Nadhira Sabina.pdf Restricted to Registered users only Download (228kB) |
|
|
Text (DAFTAR PUSTAKA)
41822010150-Nadhira Sabina Putri-08 Daftar Pustaka - Nadhira Sabina.pdf Restricted to Registered users only Download (221kB) |
|
|
Text (LAMPIRAN)
41822010150-Nadhira Sabina Putri-09 Lampiran - Nadhira Sabina.pdf Restricted to Registered users only Download (374kB) |
Abstract
Penelitian ini bertujuan untuk merancang sistem klasifikasi berita hoaks berbasis teks dengan menerapkan metode Ensemble Learning yang mengombinasikan tiga algoritma machine learning, yaitu Naïve Bayes, Logistic Regression, dan Random Forest, serta menggunakan fitur Term Frequency–Inverse Document Frequency (TF-IDF). Penelitian ini dilatarbelakangi oleh tingginya peredaran hoaks di Indonesia yang diperkirakan menjangkau sekitar 30%–60 masyarakat, sementara hanya 21%–36% yang mampu mengenali informasi palsu. Penyebaran hoaks yang banyak terjadi melalui media sosial, aplikasi pesan, dan situs web menunjukka pentingnya pemanfaatan teknologi untuk membantu masyarakat dalam melakukan verifikasi informasi secara lebih cepat dan tepat. Dataset yang digunakan berjumlah 5.446 berita berbahasa Indonesia, yang terdiri dari 2.750 berita hoaks dari TurnBackHoax dan 2.696 berita valid yang diperoleh dari Detik.com, Kompas, Liputan6, serta CNN Indonesia. Proses penelitian diawali dengan pengumpulan data melalui web scraping, kemudian dilanjutkan dengan tahap pra-pemrosesan teks yang mencakup pembersihan data, penggabungan judul dan isi berita, case folding, penghapusan URL dan tanda baca, serta tokenisasi. Selanjutnya ekstraksi fitur dilakukan menggunakan TF-IDF dengan konfigurasi unigram, kemudian dataset dibagi menjadi data latih dan data uji dengan rasio 80:20 menggunakan stratified split guna menjaga keseimbangan distribusi kelas. Sistem bekerja dengan mengonversi teks berita menjadi vektor TF-IDF yang diproses secara bersamaan oleh ketiga algoritma klasifikasi, lalu hasil prediksi dari masing-masing model digabungkan melalui mekanisme hard voting untuk menentukan label akhir berupa hoaks atau valid. Hasil pengujian menunjukkan bahwa model ensemble memberikan kinerja terbaik dengan akurasi 96,69%, precision 96,15%, recal 97,22%, dan F1-score 96,68%, sehingga lebih unggul dibandingkan model tunggal. Penelitian ini menawarkan solusi berupa sistem klasifikasi otomatis berbasis Ensemble Learning yang mampu mendeteksi berita hoaks secara lebih akurat dan konsisten, sehingga diharapkan dapat membantu masyarakat dalam memverifikasi informasi serta mendukung peningkatan literasi digital. Kata kunci: Berita Hoaks, Klasifikasi Teks, Ensemble Learning, TF-IDF, Machine Learning.
Actions (login required)
![]() |
View Item |
