Implementasi DBSCAN dan Latent Dirichlet Allocation pada Pemodelan Topik Skripsi di Fakultas Ilmu Komputer Universitas Jember
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Fakultas Ilmu Komputer
Abstract
Penelitian merupakan jembatan awal dalam menciptakan sebuah penemuan
dan inovasi yang menjadi salah satu capaian dalam Tri Dharma Perguruan Tinggi,
dalam bentuk skripsi, yang wajib diselesaikan oleh seorang mahasiswa sebelum
menyelesaikan pendidikan tingginya. Dokumen skripsi yang telah diselesaikan
akan ditampilkan melalui repository khusus milik universitas. Tujuan repository
sebagai wadah publikasi dan referensi bagi penelitian berikutnya akan bekerja
secara maksimal melalui pengelompokan topik dokumen skripsi yang dapat
mempermudah serta menghemat waktu pengguna dalam memahami dokumen
yang sesuai dalam penelitian serta variasi topik skripsi yang ada.
Pengelompokan dokumen dapat dilakukan menggunakan DBSCAN yang
dapat mengatasi noise dengan baik dan mampu membangun daerah
pengelompokan berdasarkan density (kepadatan) dengan memanfaatkan nilai
epsilon dan minimal points (MinPts). Hasil pengelompokan kemudian dapat
diekstrak topiknya menggunakan Latent Dirichlet Allocation. Melalui
pengelompokan dan ekstraksi topik dari gabungan judul dan abstrak pada
dokumen skripsi akan ditemukan nilai MinPts dan epsilon terbaik dalam
implementasi DBSCAN, performa Latent Dirichlet Allocation dan DBSCAN
dalam pemodelan topik skripsi di Fakultas Ilmu Komputer Universitas Jember,
serta variasi topik skripsi yang ditemukan pada hasil pengelompokan dokumen
skripsi. Penelitian dimulai dengan pengambilan dokumen pada halaman
repository menggunakan web scraping dan didapatkan 560 data. Data ini
kemudian diseleksi berdasarkan beberapa kriteria hingga bersisa 465 data yang
memenuhi persyaratan penelitian. Data yang sudah diseleksi kemudian
dibersihkan dari komponen yang tidak perlu dan dibobotkan menggunakan TFDIGITAL
IDF. Hasil pembobotan kemudian diclusterkan dengan enam percobaan, yakni
percobaan berdasarkan skenario, perbaikan nilai epsilon, memahami kualitas data,
penyeleksian fitur, pembobotan menggunakan persentase, dan perbandingan hasil
dengan jurnal terindeks.
Dari keenam percobaan, hasil terbaik didapatkan pada percobaan keempat
dengan penyeleksian data dari kata berpersentase rendah. Cluster terbaik
terbentuk pada epsilon 0.6 dengan minimal point sebesar 2 yang menghasilkan 81
cluster dengan 143 noise. Nilai Silhouette Score yang dihasilkan sebesar
0.0947228 dengan Dunn Index sebesar 0.5952226, dan rata-rata Coherence Score
sebesar 0.3850437926. Pencocokan pemodelan topik terhadap topik skripsi yang
ada di Fakultas Ilmu Komputer Universitas Jember menunjukkan hanya 19 dari
40 topik yang telah diambil sebagai topik skripsi dengan peminat terbesar ada
pada topik Machine Learning dengan 162 dokumen, IT/IS Evaluation dengan 40
dokumen, dan Software Construction dengan 27 dokumen.
Description
Reuploud file repositori 25 Feb 2026_Firli
