Support Vector Machine dan Shapley Additive Explanations untuk Analisis Kejadian Rawan Pangan di Jawa Timur
Abstract
Pembelajaran mesin adalah metode yang memungkinkan mesin mendapatkan
pengetahuan dengan memberikan input berupa data sebagai bahan belajar (training)
sebelum diujikan (testing) untuk mendapatkan output yang optimal. Salah satu
jenisnya adalah teknik pembelajaran mesin yang terawasi, yang mampu memetakan
input ke output yang diinginkan dan mampu menghasilkan model prediktif dengan
akurasi model yang sangat baik. Kemampuan pembelajaran mesin dalam model
prediktif lebih unggul dari model sederhana tradisional. Terdapat berbagai macam
algoritma machine learning, salah satunya adalah Support Vector Machine (SVM).
Berdasarkan prinsip Structural Risk Minimization SVM adalah salah satu algoritma
pembelajaran mesin yang paling banyak digunakan dan mencapai kinerja
generalisasi yang unggul untuk klasifikasi dan regresi. SVM memiliki kelebihan
dalam akurasi dan kekurangan dalam interpretasi.
Sebagian besar model yang dikembangkan oleh data scientist hanya fokus
pada akurasi prediksi sebagai matriks kinerja tetapi jarang menjelaskan prediksi
secara bermakna. Pembelajaran mesin terarah secara umum menghasilkan model
yang sulit untuk dijelaskan dalam bentuk sederhana. Kesulitan model ini sering
disebut dengan black box yaitu model dapat memberikan akurasi yang baik namun
tidak mudah dalam melakukan interpretasi. Pendekatan SHapley Additive
exPlanations (SHAP) dalam memperoleh tingkat kepentingan variabel merupakan
upaya saat ini untuk menginterpretasikan model black box. SHAP terbukti efektif
dalam menjelaskan berbagai model pembelajaran terawasi. Penjelasan SHAP yang
canggih secara lokal menjelaskan dampak variabel pada prediksi individu dan barubaru
ini telah diperluas untuk memberikan penilaian global pada seluruh dataset.
Interpretasi dalam model pembelajaran mesin yang terawasi dapat memberikan
manfaat tambahan dalam penentuan kebijakan oleh para pengambil kebijakan.
Data yang digunakan merupakan data kejadian rawan pangan berdasarkan
manfaat tambahan dalam penentuan kebijakan oleh para pengambil kebijakan.
Data yang digunakan merupakan data kejadian rawan pangan berdasarkan
Susenas KOR (pengumpulan data yang dilaksanakan tiap tahun) Maret 2021.
Terdapat tiga tahapan analisis data, yaitu penyiapan data, pembentukan model
klasifikasi, dan interpretasi model klasifikasi. Data pada penelitian ini dibagi
menjadi data latih dan data uji dengan perbandingan 70:30 pada dataset rumah
tangga rawan pangan, selanjutnya melakukan penyeimbangan data menggunakan
teknik SMOTE pada data latih tersebut. Pembentukan model klasifikasi dilakukan
pada data yang telah seimbang dengan menggunakan hiperparameter optimum.
Pada metode SHAP interpretasi ditampilkan melalui SHAP summary plot dan Shap
Hierarchical Clustering. Tujuan dari penelitian adalah menjelaskan model SVM Nonlinier
menggunakan Shapley Additive Explanations, mengetahui peran setiap variabel
prediktor dari Susenas terhadap kejadian kerawanan pangan, mengkaji pengaruh
dari variabel prediktor pada kejadian kerawanan pangan menggunakan Shapley
Additive Explanations.
Berdasarkan nilai evaluasi model pada data kejadian rawan pangan Provinsi
Jawa Timur memperlihatkan bahwa model SVM mampu bekerja cukup baik dalam
mengklasifikasikan rumah tangga rawan pangan. Parameter optimum diperoleh
pada kernel radial basis function (rbf). SHAP dengan fungsi interpretasi
Permutation Explainer mampu menjelaskan model SVM Nonlinier dengan baik.
Interpretasi model SVM Nonlinier menggunakan SHAP menghasilkan urutan
variabel penting penciri kejadian rawan pangan Provinsi Jawa Timur yaitu luas
lantai, jumlah penabung, pendidikan kepala rumah tangga, jenis lantai, sumber air
minum dan akses internet.
Analisis interaksi SHAP menghasilkan 2 klaster. Klaster pertama terbentuk
oleh variabel jumlah penabung, akses internet, pendidikan kepala rumah tangga,
dan jumlah buta huruf. Klaster kedua terbentuk oleh variabel jenis lantai dan jenis
dinding. Variabel jumlah penabung dan akses internet memiliki kedekatan yang
tinggi pada klaster pertama, sedangkan pada klaster kedua variabel jenis lantai dan
jenis dinding memiliki kedekatan yang tinggi.
Collections
- MT-Mathematic [100]