dc.description.abstract | Penelitian bermanfaat untuk mendefinisikan dan menyelesaikan masalah,
mengamati dan menginterpretasikan fakta, merumuskan hipotesis, melakukan uji
coba, merevisi teori, dan menerapkan hasil penelitian. Bagi mahasiswa akhir,
penelitian adalah syarat penting untuk mendapatkan gelar sarjana melalui
penyusunan skripsi. Dokumen skripsi disimpan dalam database universitas dan
diakses melalui repository, yang mempublikasikan karya tulis dan menyediakan
referensi untuk penelitian mendatang. Namun, repository Universitas Jember hanya
mengelompokkan skripsi berdasarkan fakultas, bukan topik, sehingga menyulitkan
mahasiswa dalam memilih topik skripsi. Oleh karena itu, penelitian ini bertujuan
mengelompokkan data skripsi berdasarkan topik Pada Fakultas Saintek di
Universitas Jember, menggunakan data dari Repository Universitas.
Pengelompokkan menggunakan algoritma Hierarchical Agglomerative
Clustering (HAC) dengan average linkage dipilih karena efektif mengelompokkan
data teks tanpa menentukan jumlah cluster terlebih dahulu dan menghasilkan
dendrogram yang mudah dipahami. Average linkage menghitung jarak berdasarkan
rata-rata jarak antar individu dalam cluster, lebih stabil dibanding complete dan
single linkage. Validitas cluster diuji dengan koefisien korelasi cophenetic, dan
evaluasi cluster menggunakan silhouette coefficient serta dunn index untuk
menentukan jumlah cluster terbaik. Setelah terbentuk, topik-topik dalam cluster
diidentifikasi menggunakan Latent Dirichlet Allocation (LDA).
Pada tahapannya dimulai dengan pengambilan dokumen scraping data pada
tiap fakultas terlebih dahulu. Fakultas tersebut terdiri dari Fakultas Ilmu Komputer
yang terdiri dari 799 dokumen, Kedokteran Gigi 1958 dokumen, Farmasi 1379
dokumen, Pertanian 3850 dokumen, Teknologi Pertanian 2502 dokumen,
Kedokteran 1385 dokumen, Kesehatan Masyarakat 2104 dokumen, Teknik 3679
dokumen, Keperawatan 1421 dokumen, serta Matematika dan Ilmu Pengetahuan
Alam 3158 dokumen. Kemudian dokumen tersebut melewati tahap data selection
berupa kelengkapan judul dan abstrak, duplikasi, batasan tanggal, seleksi NIM, dan
juga panjang abstrak. Setelah itu dokumen tersebut dilakukan tahapan text preprocessing yang akan memproses kata dalam dokumen agar lebih mudah
dipahami oleh komputer. Dokumen yang telah dilakukan text preprocessing
kemudian diberikan bobot nilai menggunakan TF – IDF. Setelah itu akan
menghasilkan kolom dalam jumlah ribuan yang kemudian akan dikurangi
menggunakan UMAP agar kolom menjadi 2 saja. Setelah itu, dilakukannya tahapan
clustering menggunakan Hierarchical Agglomerative Clustering menggunakan
Average Linkage sebagai metrik dan Euclidean Distance sebagai metode
pengukuran jarak. Setelah itu dilakukan klasterisasi menggunakan Hierarchical
Agglomerative Clustering yang akan menghasilkan dendrogram untuk kemudian
hasil klasterisasi tersebut dievaluasi sehingga menghasilkan jumlah cluster paling
optimal menggunakan 2 evaluasi, yakni silhouette coefficient dan juga dunn index.
Kemudian, hasil tiap cluster pada masing – masing fakultas tersebut akan
ditentukan topik yang muncul menggunakan Wordcloud dan melihat kata yang
sering muncul.
Dari tahapan tersebut, ditemukan cluster optimal pada Fakultas Ilmu
Komputer 6 cluster, Keperawatan 6 cluster, Farmasi 6 cluster, Teknologi Pertanian
10 cluster, Pertanian 4 cluster, Kedokteran Gigi 5 cluster, Kedokteran 9 cluster,
Kesehatan Masyarakat 9 cluster, serta Teknik pada Prodi Mesin 10 cluster, Sipil 10
cluster, Elektro 10 cluster, PWK 6 cluster, Pertambangan 4 cluster, Lingkungan 2
cluster, Konstruksi Kapal 6 cluster, dan MIPA pada Matematika 2 cluster, Fisika
10 cluster, Biologi 10 cluster, Kimia 10 cluster, Pendidikan Matematika 2 cluster,
Pendidikan Fisika 9 cluster. | en_US |