Implementasi Metode K-Means Clustering untuk Analisis Trend Topik Skripsi (Studi Kasus: Fakultas Ilmu Komputer Universitas Jember)
Abstract
Perkembangan teknologi informasi menyebabkan banyaknya jumlah dokumen digital khususnya dokumen skripsi sehingga dapat memunculkan peluang mahasiswa mengambil topik yang sama dan tidak variatif. Dokumen skripsi dapat dikelompokkan berdasarkan topiknya dengan mengidentifikasi bagian abstrak. Hasil pengelompokkan dapat diketahui trend-nya dengan visualisasi data sehingga dapat di analisis untuk mengetahui trend setiap topiknya. Pengambilan data pada repository Universitas Jember melalui proses web scraping sebanyak 490 dokumen skripsi mahasiswa Fakultas Ilmu Komputer Universitas Jember. Tahap preprocessing dilakukan dengan metode text mining yang meliputi cleaning, filtering, stemming, dan tokenizing. Lalu menghitung bobot setiap kata dengan algoritma Term Frequency - Inverse Document Frequency, dilanjutkan proses reduksi dimensi menggunakan algoritma Principal Component Analysis yang dilakukan normalisasi Z-Score terlebih dahulu. Proses outliers removal dilakukan sebelum mengelompokkan dokumen. Selanjutnya pengelompokkan dokumen menggunakan metode K-Means Clustering dengan Cosine Similarity sebagai perhitungan jarak dan algoritma Silhouette Coefficient sebagai pengujiannya. Hasil pengujian dilakukan dengan nilai kyang bervariasi dan didapatkan nilai optimal pada k = 2 dengan nilai Silhouette 0,80. Lalu pendeteksian topik menggunakan algoritma Latent Dirichlet Allocation pada setiap cluster yang telah terbentuk. Setiap cluster dilakukan visualisasi dengan line chart dan algoritma Least Square serta di analisis untuk mengetahui trend yang terjadi. Dari hasil analisis dapat disimpulkan bahwa topik Pengembangan Sistem Pendukung Keputusan terjadi trend turun, dan topik Pengukuran Kinerja TI dan Peramalan terjadi trend naik. Maka dapat disimpulkan topik Pengembangan Sistem Penunjang Keputusan perlu dikurangi sehingga topik-topik lain dapat muncul.