Klasifikasi Kanker Payudara Berdasar Citra Mammogram Menggunakan Metode Random Forest
Abstract
Kanker payudara adalah kanker yang berkembang di jaringan payudara. Pencegahan dan diagnosis dini kanker payudara dapat dilakukan dengan mammografi. Pemeriksaan mammografi mampu menemukan abnormalitas yang mengarah pada kanker payudara pada seseorang yang tidak memiliki keluhan. Citra mammogram akan dihasilkan dari pemeriksaan mammografi. Mengidentifikasi citra mammogram adalah tugas yang menantang karena citra memiliki keterbatasan seperti noise dan kontras yang rendah. Untuk mengurangi keterbatasan visual citra dan subjektifitas dari dokter, peneliti menggunakan metode computer vision untuk mengklasifikasikan citra mammogram.
Citra mammogram terlebih dahulu diperbaiki dengan mengubah format menjadi (.png), dirotasi, dipotong, ditingkatkan kontrasnya menggunakan contrast stretching, dan dihilangkan noise-nya menggunakan filter gaussian. Citra hasil perbaikan kemudian diekstraksi dengan metode Grey Level Co-occurrence Matrix (GLCM). Fitur-fitur hasil ekstraksi selanjutnya dijadikan masukan pada tahapan klasifikasi yaitu menggunakan algoritma random forest. Model klasifikasi terbaik akan dipilih untuk diimplementasikan menjadi sistem website.
Untuk menemukan model klasifikasi terbaik, dilakukan percobaan pada tahapan contrast stretching, filter gaussian dan klasifikasi dengan random forest. Nilai persentil, sigma, perbandingan data training: data testing, dan jumlah pohon yang digunakan beragam. Hasil analisis menemukan bahwa model klasifikasi terbaik diperoleh ketika citra mammogram ditingkatkan kontrasnya menggunakan persentil 4-96. Nilai accuracy, precision, dan recall yang dihasilkan yaitu 70.8%, 85.7%, dan 25% dengan waktu eksekusi 5 jam 51 menit 6 detik. Model tersebut menggunakan perbandingan data training : data testing 80:20 dan jumlah pohon 600. Makin banyak data training dan jumlah pohon yang digunakan tidak berarti kinerja algoritma random forest lebih signifikan dari pada sebelumnya, malah akan membuat waktu pemrosesan makin lama. Penggunaan filter gaussian untuk mengurangi noise juga tidak dapat meningkatkan nilai accuracy, precision, dan recall, sehingga implementasi sistem website tidak menggunakan metode tersebut. Implementasi sistem website menggunakan bahasa pemrograman Python dan framework Django.