Metode Seleksi Fitur Gabungan menggunakan Symbolic Relevance dalam Text Clustering
Abstract
Dalam text mining, diperlukan seleksi fitur untuk mengurangi dimensi kata suatu dokumen dan meningkatkan hasil clustering. Pada penelitian sebelumnya, metode SFS dan TF-RF menghasilkan performa terbaik dalam feature selection. Kedua metode tersebut memiliki kelebihan masing-masing. SFS dapat mengukur tingkat kemiripan kata antar kelas, sedangkan TF-RF dapat menghitung frekuensi suatu kata dan relevansinya terhadap kelas yang berkaitan. Pada penelitian sebelumnya, dilakukan penggabungan dua jenis metode seleksi fitur menggunakan TF-IDF dan Lexical Chain. Berdasarkan penelitian tersebut, menggabungkan dua jenis metode seleksi fitur dapat memberikan hasil yang lebih baik dalam text clustering. Oleh karena itu, dilakukan penelitian untuk menggabungkan metode seleksi fitur SFS dan TF-RF atau dapat disebut sebagai Symbolic Relevance. Dengan penggabungan tersebut, diharapkan kelebihan dari kedua metode tersebut dapat meningkatkan performa text clustering. Dalam penelitian ini, dilakukan 144 jenis skenario percobaan dengan membandingkan antara metode gabungan Symbolic Relevance, tanpa menggabungkan, serta tanpa menggunakan feature selection. Selanjutnya, hasil seleksi fitur diimplementasikan ke dalam clustering K-Means++ dan Spherical K-Means. Selain itu juga dilakukan analisis performa menggunakan Silhouette Coefficient, Purity, AMI, dan Accuracy. Berdasarkan hasil penelitian, metode Symbolic Relevance mampu menyeleksi fitur dengan jumlah rata-rata 17.5% dibandingkan dengan fitur awalnya. Namun percobaan tanpa feature selection memiliki performa tertinggi dikarenakan penggunaan feature selection mengakibatkan banyak informasi yang hilang. Symbolic Relevance memiliki selisih fitur 82.5% (19823 fitur), selisih skor Silhouette Coefficient 0.064, selisih skor Purity 0.306, selisih skor AMI 0.430, selisih Accuracy 0.017, dan selisih waktu eksekusi hingga 293.93 detik dibandingkan metode tanpa feature selection.