Analisis Metode Smote, Adasyn, dan K-Means Smote Untuk Menangani Ketidakseimbangan data Dalam Penyakit Diabetes
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Fakultas Ilmu Komputer
Abstract
Ada banyak penelitian yang dilakukan untuk menganalisis penyakit diabetes
menggunakan algoritma machine learning ataupun metode untuk mengatasi
ketidakseimbangan data. Pada penelitian yang dilakukan oleh Sari et al., (2023)
dalam penelitiannya yang berjudul “Comparison Of Support Vector Machine
Perfomance With Oversampling And Outlier Handling In Diabetic Disease
Detection Classification” membandingkan beberapa kernel SVM yang integrasikan
menggunakan metode SMOTE untuk menangani ketidakseimbangan data. Hasil
yang diperoleh adalah algoritma SVM dengan menggunakan kernel RBF yang
mendapatkan nilai akurasi sebesar 88%. Akan tetapi jumlah data yang dipakai
sebesar 768 baris, selisih antar kelas penyakit diabetes tergolong kecil. Hal tersebut
masih menimbulkan pertanyaan apakah metode SMOTE dan metode
ketidakseimbangan
data
lainnya
mampu untuk menangani jumlah
ketidakseimbangan data dalam jumlah besar.
Pada penelitian ini akan menganalisis metode SMOTE, ADASYN, dan K
Means SMOTE dalam mengatasi ketidakseimbangan data. Algoritma machine
learning seperti SVM dan KNN akan digunakan untuk membandingkan performa
yang dihasilkan menggunakan data penyakit diabetes yang memiliki 100.000 baris.
Uji coba dilakukan dengan cara membagi data latih dan data uji dengan rasio 7:3,
8:2, dan 9:1 beserta parameter metode yang digunakan dengan mengganti nilai K/N
yaitu
2,
5,
7. Sebagai perbandingan untuk membandingkan metode
ketidakseimbangan data akan digunakan evaluasi model menggunakan confusion
matrix dan nilai yang dipakai yaitu accuracy, precision, recall, dan f1-score.
Berdasarkan hasil, sebelum menggunakan metode ketidakseimbangan data
nilai recall lebih kecil daripada nilai precision. Hal tersebut terjadi dikarenakan
terjadi
ketidaksiembangan
kelas
yang menyimpang jauh. Metode
ketidakseimbangan data mampu meningkatkan nilai recall 59%-75%, tetapi
membuat nilai accuracy menurun sampai dengan 17%. Dari ketiga metode tersebut,
metode K-Means SMOTE membuat performa lebih baik daripada metode SMOTE dan ADASYN. Hal tersebut terbukti pada performa KNN yang memiliki performa
98% accuracy, 97% precision, dan 98% f1-score.
Description
Reaploud Repository February_agus
