Pengembangan Sistem Deteksi Time Frame Dokumen berita berbasis Vector Space Model
Abstract
Berkembangnya website sebagai salah satu bentuk media massa
mengakibatkan tajamnya peningkatan jumlah informasi berupa artikel berita. Hasil
pengamatan dari tiga situs berita (yaitu Tribunnews.com, Detik.com, dan
Liputan6.com) dengan teknik scraping, pada bulan Agustus sampai dengan
Desember 2018 ditemukan sebanyak 109.061 berita yang telah terpublikasi.
Apabila dilihat dari sisi jumlah, pembaca berita sangat cukup mendapatkan
referensi dari informasi yang ingin diketahuinya. Namun demikian, dengan
banyaknya informasi tersebut, pembaca juga menemui kesulitan ketika ingin
mengetahui rentang waktu sebuah topik yang diberitakan. Secara manual, pembaca
harus mencari semua dokumen pada situs berita yang ada serta menentukan apakah
dokumen berita tersebut sesuai dengan topik yang dimaksud atau tidak.
Selanjutnya, pembaca juga diharuskan memetakan seluruh dokumen yang sesuai
topik berdasarkan tanggal terbitnya. Langkah tersebut dilakukan untuk mengetahui
durasi kejadian secara manual, Dengan demikian untuk mengetahui rentang sebuah
topik yang diberitakan akan memakan waktu yang lama.
Sistem pencarian merupakan salah satu solusi yang dapat membantu dalam
menemukan kembali informasi yang diinginkan (Dasar, Wicaksono, & Sihwi,
2015). Sistem ini berusaha menemukan dokumen yang relevan sesuai dengan query
masukannya. Salah satu model yang sering digunakan dalam proses pencarian
adalah Vector Space Model (VSM). VSM merupakan suatu metode yang
merepresentasikan sistem temu kembali (information retrieval) kedalam vektor
serta memperhitungkan fungsi similarity dalam pencocokan beberapa vektor.
Pada penelitian ini menggunakan dokumen berita yang digunakan yang sudah
tersimpan kedalam bentuk JSON dengan total berita 4812 berita dari situs berita
Tribunnews.com, Detik.com, dan Liputan6.com. Peneliti akan membangun desain
dan sistem yang akan membantu sistem pendeteksi rentang waktu pemberitaan topik dalam dokumen berita atau dalam penelitian ini disebut dengan time-frame
dokumen berita. Sistem ini didasarkan pada sistem temu kembali dengan
menggunakan model Vector Space Model. Dokumen berita yang ditemu kembali
adalah dokumen yang memiliki similarity sesuai dengan threshold (nilai minimal)
yang ditentukan. Sistem ini diharapkan dapat mendeteksi time-frame dokumen
berita dari tiga situs berita secara akurat sehingga dapat menjawab kebutuhan
informasi tentang rentang waktu sebuah topik yang diberitakan, serta mengetahui
akurasi dari sistem yang dibangun.
Berdasarkan tahapan analisis kebutuhan pengguna, desain sistem deteksi
sistem time frame konten berita berbasis vector space model untuk menampilkan
time frame dokumen berita berdasarkan pencarian berita pengguna membutuhkan
15 proses serta melibatkan 3 aktor. Berdasarkan desain tersebut yang telah berhasil
dibangun, nilai cosine similarity minimal (threshold) yang dibutuhkan untuk
mendapatkan dokumen yang diinginkan adalah 0,788. Nilai akurasi yang dihasilkan
berdasarkan desain yang dibangun menggunakan teknik perhitungan recall
mendapatkan nilai 100%, precision 90% dan f-measure sebesar 94,7%.