FADHIL, RENALDI KHAIRUL (2025) PENERAPAN ALGORITMA K-NEAREST NEIGHBOR DAN SUPPORT VECTOR MACHINE UNTUK MEMPREDIKSI PENYAKIT DIABETES. S1 thesis, Universitas Mercu Buana Jakarta.
|
Text (HAL COVER)
01 COVER.pdf Download (575kB) | Preview |
|
![]() |
Text (BAB I)
02 BAB 1.pdf Restricted to Registered users only Download (301kB) |
|
![]() |
Text (BAB II)
03 BAB 2.pdf Restricted to Registered users only Download (658kB) |
|
![]() |
Text (BAB III)
04 BAB 3.pdf Restricted to Registered users only Download (252kB) |
|
![]() |
Text (BAB IV)
05 BAB 4.pdf Restricted to Registered users only Download (927kB) |
|
![]() |
Text (BAB V)
06 BAB 5.pdf Restricted to Registered users only Download (286kB) |
|
![]() |
Text (DAFTAR PUSTAKA)
07 DAFTAR PUSTAKA.pdf Restricted to Registered users only Download (296kB) |
|
![]() |
Text (LAMPIRAN)
08 LAMPIRAN.pdf Restricted to Registered users only Download (308kB) |
Abstract
The prevalence of diabetes mellitus worldwide continues to increase significantly, making it one of the major health problems that require early detection and effective treatment. This study aims to compare the performance of Support Vector Machine (SVM) and K-Nearest Neighbor (KNN) algorithms in predicting diabetes risk using secondary data from Kaggle consisting of 768 patient data with nine main medical attributes. The methods used include data cleaning, normalization, feature selection, and the application of the SMOTE (Synthetic Minority Over-sampling Technique) oversampling technique to balance unbalanced data, thereby improving prediction accuracy. Furthermore, both algorithms are evaluated through accuracy, precision, recall, and F1-score metrics. Results show that SVM excels in terms of accuracy on complex datasets, while KNN is more effective on data with uniform distribution and small numbers. The application of SMOTE is proven to improve the performance of the model by increasing the classification ability of minority data. The conclusion of this study is that SVM is more optimal for diabetes prediction on complex data, while KNN can be used as a flexible alternative. This research contributes to the development of a data-based decision support system for more accurate diagnosis and risk management of diabetes. Keywords: Diabetes Prediction, Support Vector Machine, K-Nearest Neighbor, SMOTE, Oversampling Prevalensi diabetes mellitus di seluruh dunia terus meningkat secara signifikan, menjadikannya sebagai salah satu masalah kesehatan utama yang membutuhkan deteksi dini dan penanganan yang efektif. Penelitian ini bertujuan untuk membandingkan kinerja algoritma Support Vector Machine (SVM) dan K-Nearest Neighbor (KNN) dalam memprediksi risiko diabetes menggunakan data sekunder dari Kaggle yang terdiri dari 768 data pasien dengan sembilan atribut medis utama. Metode yang digunakan meliputi tahap pembersihan data, normalisasi, pemilihan fitur, serta penerapan teknik oversampling SMOTE (Synthetic Minority Oversampling Technique) untuk menyeimbangkan data yang tidak seimbang, sehingga meningkatkan akurasi prediksi. Selanjutnya, kedua algoritma dievaluasi melalui metrik akurasi, presisi, recall, dan F1-score. Hasil menunjukkan bahwa SVM unggul dalam hal akurasi dataset yang kompleks, sedangkan KNN lebih efektif pada data dengan distribusi seragam dan jumlah kecil. Penerapan SMOTE terbukti mampu meningkatkan performa model dengan meningkatkan kemampuan klasifikasi terhadap data minoritas. Kesimpulan dari penelitian ini adalah bahwa SVM lebih optimal untuk prediksi diabetes pada data yang kompleks, sementara KNN dapat digunakan sebagai alternatif yang fleksibel. Penelitian ini memberikan kontribusi dalam pengembangan sistem pendukung keputusan berbasis data untuk diagnosis dan manajemen risiko diabetes yang lebih akurat. Kata Kunci: Prediksi Diabetes, Support Vector Machine, K-Nearest Neighbor, SMOTE, Oversampling.
Actions (login required)
![]() |
View Item |