Implementasi Ekstraksi Web (Web Scraping) pada Situs Berita Menggunakan Metode Ekspresi Reguler
Abstract
Situs berita, sebagai salah satu penyedia informasi, merupakan web yang
sangat sering dikunjungi. Berdasarkan Alexa Traffic Rank (ATR), ada tiga situs
berita yang termasuk sebagai 10 situs dengan akses tertinggi di Indonesia, yaitu
www.detik.com, www.tribunnews.com, dan www.liputan6.com. Sebagai situs
berita, ketiga situs web tersebut selalu berusaha menyajikan berita terbaru. Tidak
jarang ketiga situs tersebut memuat berita dengan topik yang serupa.
Dari hasil observasi awal yang dilakukan peneliti selama 7 hari berturutturut
terungkap
bahwa
berita
dengan
judul
yang
mengandung
kata
kunci
“mudik”
dimuat
sebanyak 499 dalam situs www.detik.com, 423 dalam situs
www.tribunnews.com dan 174 berita dalam situs www.liputan6.com. Ketika
pengguna membutuhkan data dari ketiga situs itu, pengguna harus melakukan
proses pengumpulan data secara manual yaitu dengan mengunjungi setiap situs
berita menggunakan aplikasi browser dan melakukan proses copy dan paste untuk
setiap halaman yang memuat berita yang dimaksud. Proses pengumpulan data
seperti ini membutuhkan usaha yang cukup besar dan waktu yang relatif lama,
alternatif lain yang bisa dilakukan adalah dengan menggunakan teknik web
scraping.
Teknik web scraping adalah teknik pengambilan data pada file html secara
otomatis berdasarkan pola tag html yang menyusunnya. Teknik ini dapat dilakukan
dengan memanfaatkan pola regular expression di dalamnya. Berdasarkan
penjelasan sebelumnya, peneliti mencoba membangun sebuah aplikasi yang
didasarkan pada teknik web scraping menggunakan pola regular expression untuk
mengekstrak data berita dalam laman situs berita secara otomatis dan disimpan
dalam sebuah basis data untuk kebutuhan analisis berita. Pola Regex yang dibangun
akan didasarkan pada struktur tag html yang digunakan pada masing-masing situs,
sehingga akan ditemukan perbedaan pola dari masing-masing situs berita yang
diinginkan.
Hasil yang ditemukan peneliti setelah melakukan penelitian adalah
ditemukannya perbedaan pola penulisan halaman pada masing-masing situs.
Perbedaan pola penulisan tersebut mengakibatkan perbedaan pola regex yang
digunakan untuk melakukan ekstraksi. Perbedaan ini terletak pada jenis tag dan
atribut serta value yang digunakan. Perbedaan pola regex yang ditemukan ini telah
di implementasikan pada aplikasi yang dibangun. Proses uji akurasi dilakukan pada
tanggal 04 Juli 2018 pukul 08.56 - 08.57 WIB menggunakan tiga metode pengujian,
yaitu precission, recall, dan f-measure untuk mengukur tingkat akurasi aplikasi
yang dibangun. Hasil uji akurasi terhadap aplikasi menunjukkan bahwa ketiga situs
memiliki akurasi sebesar 100%.