KLASIFIKASI BERITA HOAKS BERBASIS ENSEMBLE LEARNING (NAÏVE BAYES, LOGISTIC REGRESSION, DAN RANDOM FOREST) DENGAN TF-IDF

PUTRI, NADHIRA SABINA (2026) KLASIFIKASI BERITA HOAKS BERBASIS ENSEMBLE LEARNING (NAÏVE BAYES, LOGISTIC REGRESSION, DAN RANDOM FOREST) DENGAN TF-IDF. S1 thesis, Universitas Mercu Buana Jakarta - Menteng.

[img] Text (COVER)
41822010150-Nadhira Sabina Putri-01 Cover - Nadhira Sabina.pdf

Download (834kB)
[img] Text (BAB 1)
41822010150-Nadhira Sabina Putri-02 Bab 1 - Nadhira Sabina.pdf
Restricted to Registered users only

Download (239kB)
[img] Text (BAB 2)
41822010150-Nadhira Sabina Putri-03 Bab 2 - Nadhira Sabina.pdf
Restricted to Registered users only

Download (534kB)
[img] Text (BAB 3)
41822010150-Nadhira Sabina Putri-04 Bab 3 - Nadhira Sabina.pdf
Restricted to Registered users only

Download (248kB)
[img] Text (BAB 4)
41822010150-Nadhira Sabina Putri-05 Bab 4 - Nadhira Sabina.pdf
Restricted to Registered users only

Download (395kB)
[img] Text (BAB 5)
41822010150-Nadhira Sabina Putri-06 Bab 5 - Nadhira Sabina.pdf
Restricted to Registered users only

Download (228kB)
[img] Text (DAFTAR PUSTAKA)
41822010150-Nadhira Sabina Putri-08 Daftar Pustaka - Nadhira Sabina.pdf
Restricted to Registered users only

Download (221kB)
[img] Text (LAMPIRAN)
41822010150-Nadhira Sabina Putri-09 Lampiran - Nadhira Sabina.pdf
Restricted to Registered users only

Download (374kB)

Abstract

Penelitian ini bertujuan untuk merancang sistem klasifikasi berita hoaks berbasis teks dengan menerapkan metode Ensemble Learning yang mengombinasikan tiga algoritma machine learning, yaitu Naïve Bayes, Logistic Regression, dan Random Forest, serta menggunakan fitur Term Frequency–Inverse Document Frequency (TF-IDF). Penelitian ini dilatarbelakangi oleh tingginya peredaran hoaks di Indonesia yang diperkirakan menjangkau sekitar 30%–60 masyarakat, sementara hanya 21%–36% yang mampu mengenali informasi palsu. Penyebaran hoaks yang banyak terjadi melalui media sosial, aplikasi pesan, dan situs web menunjukka pentingnya pemanfaatan teknologi untuk membantu masyarakat dalam melakukan verifikasi informasi secara lebih cepat dan tepat. Dataset yang digunakan berjumlah 5.446 berita berbahasa Indonesia, yang terdiri dari 2.750 berita hoaks dari TurnBackHoax dan 2.696 berita valid yang diperoleh dari Detik.com, Kompas, Liputan6, serta CNN Indonesia. Proses penelitian diawali dengan pengumpulan data melalui web scraping, kemudian dilanjutkan dengan tahap pra-pemrosesan teks yang mencakup pembersihan data, penggabungan judul dan isi berita, case folding, penghapusan URL dan tanda baca, serta tokenisasi. Selanjutnya ekstraksi fitur dilakukan menggunakan TF-IDF dengan konfigurasi unigram, kemudian dataset dibagi menjadi data latih dan data uji dengan rasio 80:20 menggunakan stratified split guna menjaga keseimbangan distribusi kelas. Sistem bekerja dengan mengonversi teks berita menjadi vektor TF-IDF yang diproses secara bersamaan oleh ketiga algoritma klasifikasi, lalu hasil prediksi dari masing-masing model digabungkan melalui mekanisme hard voting untuk menentukan label akhir berupa hoaks atau valid. Hasil pengujian menunjukkan bahwa model ensemble memberikan kinerja terbaik dengan akurasi 96,69%, precision 96,15%, recal 97,22%, dan F1-score 96,68%, sehingga lebih unggul dibandingkan model tunggal. Penelitian ini menawarkan solusi berupa sistem klasifikasi otomatis berbasis Ensemble Learning yang mampu mendeteksi berita hoaks secara lebih akurat dan konsisten, sehingga diharapkan dapat membantu masyarakat dalam memverifikasi informasi serta mendukung peningkatan literasi digital. Kata kunci: Berita Hoaks, Klasifikasi Teks, Ensemble Learning, TF-IDF, Machine Learning.

Item Type: Thesis (S1)
NIM/NIDN Creators: 41822010150
Uncontrolled Keywords: Berita Hoaks, Klasifikasi Teks, Ensemble Learning, TF-IDF, Machine Learning.
Subjects: 000 Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 000. Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum
000 Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 000. Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 003 Systems/Sistem-sistem
000 Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 000. Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 004 Data Processing, Computer Science/Pemrosesan Data, Ilmu Komputer, Teknik Informatika
000 Computer Science, Information and General Works/Ilmu Komputer, Informasi, dan Karya Umum > 070 Documentary Media, Educational Media, News Media, Journalism, Publishing/Media Dokumenter, Media Pendidikan, Media Berita, Jurnalisme, Penerbitan > 070.1-070.9 Standard Subdivisions of Documentary Media, Educational Media, News Media, Journalism, Publishing/Subdivisi Standar Dari Media Dokumenter, Media Pendidikan, Media Berita, Jurnalisme, Penerbitan > 070.4 Journalism/Jurnalisme, Jurnalistik, Pers > 070.43 Reporting and News Gathering/Liputan Berita, Laporan dan Pengumpulan Berita > 070.431 News Sources/Sumber Berita
Divisions: Fakultas Ilmu Komputer > Sistem Informasi
Depositing User: MARISA ANGGRENI BR BANGUN
Date Deposited: 13 Feb 2026 02:10
Last Modified: 13 Feb 2026 02:10
URI: http://repository.mercubuana.ac.id/id/eprint/100925

Actions (login required)

View Item View Item