Analisis  Metode Smote, Adasyn, dan K-Means Smote Untuk Menangani  Ketidakseimbangan data Dalam Penyakit Diabetes

Adinda Nisa Anggraini

Analisis Metode Smote, Adasyn, dan K-Means Smote Untuk Menangani Ketidakseimbangan data Dalam Penyakit Diabetes

Files

Adinda Nisa Anggraini - 192410103025.pdf (2.24 MB)

Date

2025-01-12

Authors

Adinda Nisa Anggraini

Publisher

Fakultas Ilmu Komputer

Abstract

Ada banyak penelitian yang dilakukan untuk menganalisis penyakit diabetes menggunakan algoritma machine learning ataupun metode untuk mengatasi ketidakseimbangan data. Pada penelitian yang dilakukan oleh Sari et al., (2023) dalam penelitiannya yang berjudul “Comparison Of Support Vector Machine Perfomance With Oversampling And Outlier Handling In Diabetic Disease Detection Classification” membandingkan beberapa kernel SVM yang integrasikan menggunakan metode SMOTE untuk menangani ketidakseimbangan data. Hasil yang diperoleh adalah algoritma SVM dengan menggunakan kernel RBF yang mendapatkan nilai akurasi sebesar 88%. Akan tetapi jumlah data yang dipakai sebesar 768 baris, selisih antar kelas penyakit diabetes tergolong kecil. Hal tersebut masih menimbulkan pertanyaan apakah metode SMOTE dan metode ketidakseimbangan data lainnya mampu untuk menangani jumlah ketidakseimbangan data dalam jumlah besar. Pada penelitian ini akan menganalisis metode SMOTE, ADASYN, dan K Means SMOTE dalam mengatasi ketidakseimbangan data. Algoritma machine learning seperti SVM dan KNN akan digunakan untuk membandingkan performa yang dihasilkan menggunakan data penyakit diabetes yang memiliki 100.000 baris. Uji coba dilakukan dengan cara membagi data latih dan data uji dengan rasio 7:3, 8:2, dan 9:1 beserta parameter metode yang digunakan dengan mengganti nilai K/N yaitu 2, 5, 7. Sebagai perbandingan untuk membandingkan metode ketidakseimbangan data akan digunakan evaluasi model menggunakan confusion matrix dan nilai yang dipakai yaitu accuracy, precision, recall, dan f1-score. Berdasarkan hasil, sebelum menggunakan metode ketidakseimbangan data nilai recall lebih kecil daripada nilai precision. Hal tersebut terjadi dikarenakan terjadi ketidaksiembangan kelas yang menyimpang jauh. Metode ketidakseimbangan data mampu meningkatkan nilai recall 59%-75%, tetapi membuat nilai accuracy menurun sampai dengan 17%. Dari ketiga metode tersebut, metode K-Means SMOTE membuat performa lebih baik daripada metode SMOTE dan ADASYN. Hal tersebut terbukti pada performa KNN yang memiliki performa 98% accuracy, 97% precision, dan 98% f1-score.

Description

Reaploud Repository February_agus

Keywords

Smote, Adasyn, K-Means Smote, Menangani Ketidakseimbangan Data, Penyakit Diabetes

URI

https://repository.unej.ac.id/handle/123456789/3389

Collections

UT-Faculty of Computer Science

Full item page

Analisis Metode Smote, Adasyn, dan K-Means Smote Untuk Menangani Ketidakseimbangan data Dalam Penyakit Diabetes

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By