Interpretasi Kerawanan Pangan Rumah Tangga di Jawa Timur dengan Klasifikasi Categorical Boosting dan SHAP
Abstract
Machine learning merupakan salah satu dari bagian kecerdasan buatan yang membuat suatu sistem untuk kemampuan belajar otomatis dan meningkatkan kemampuannya berdasarkan pengalaman tanpa diprogram secara eksplisit. Machine learning menggunakan data untuk digunakan sebagai bahan belajar (training) sebelum digunakan untuk menguji data yang baru (testing). Salah satu jenis model machine learning yang sering digunakan adalah klasifikasi. Klasifikasi adalah suatu proses pengelompokan berdasarkan antar kelas data, sehingga didapatkan model yang dapat memprediksi kelas yang belum diketahui dari obyek yang diamati.
Salah satu algoritma machine learning yang menggunakan proses klasifikasi adalah algoritma Categorical Boosting classifier (CatBoost classifier). CatBoost classifier merupakan algoritma pemodelan prediktif yang kuat untuk tugas klasifikasi. CatBoost classifier memiliki beberapa keunggulan, seperti kemampuan untuk mengelola overfitting (akurat hanya pada data training) dan kuat untuk penanganan klasifikasi data kategorikal. Namun algoritma CatBoost classifier akan menghasilkan model yang bersifat black box. Model bersifat black box merupakan model yang kompleks dan sulit dipahami secara intuitif oleh manusia sehingga manusia tidak memiliki pemahaman yang jelas tentang bagaimana model tersebut melakukan pengolahan internal dan menghasilkan outputnya. Shapley Additive exPlanations (SHAP) adalah salah satu solusi untuk menafsirkan model machine learning yang bersifat black box. SHAP akan tingkat kepentingan variabel sehingga dapat menginterpretasikan model black box. Hasil interpretasi dari model tersebut akan memberikan manfaat lebih dalam menentukan suatu keputusan oleh pihak pengambil keputusan.
Penelitian ini menggunakan data kejadian rawan pangan berdasarkan Survei Sosial Ekonomi Nasional (Susenas) Provinsi Jawa Timur tahun 2021. Penelitian ini bertujuan untuk mengetahui dan mengkaji peranan setiiap variabel prediktor dari data Susenas Provinsi Jawa Timur terhadap kerawanan pangan dengan menggunakan algoritma CatBoost classifier dan SHAP.
Hasil yang didapatkan, berdasarkan nilai evaluasi dari model CatBoost classifier menunjukkan model CatBoost classifier bekerja dengan cukup baik untuk mengklasifikasikan rumah tangga yang rawan pangan. Hal ini ditunjukkan dengan nilai akurasi model sebesar 78% dan AUC 0,73. Interpretasi model dengan menggunakan SHAP menghasilkan urutan variabel prediktor penting dalam mencirikan kerawanan pangan rumah tangga Provinsi Jawa Timur, yakni luas lantai rumah, sumber air minum, ketersediaan air minum layak, pendidikan kepala rumah tangga, ketersediaan akses internet, jumlah penabung dalam satu rumah tangga, ketersediaan sanitasi layak, dan kepemilikan aset tanah.
Hasil analisis interaksi SHAP dengan menggunakan hierarchical clustering menghasilkan 4 klaster. Klaster pertama terbentuk dari interaksi variabel prediktor sumber air minum dengan ketersediaan air minum layak. Klaster kedua terbentuk dari interaksi variabel prediktor jumlah penabung dengan ketersediaan akses internet dan pendidikan KRT. Klaster ketiga terbentuk dari interaksi variabel prediktor jenis dinding rumah dengan jenis lantai rumah. Klaster keempat terbentuk dari interaksi variabel prediktor bantuan PKH dengan BPNT, KKS dan BPJS. Hasil yang didapatkan oleh interaksi SHAP dapat membantu bagi para pengambil kebijakan untuk mengidentifikasi interaksi variabel-variabel prediktor penting yang memberikan kontribusi dalam pengklasifikasian kerawanan pangan.