Implementasi Ekstraksi Web (Web Scraping) pada Situs Berita Menggunakan Metode Ekspresi Reguler

ROHIM, Muhamat Abdul

Please use this identifier to cite or link to this item: https://repository.unej.ac.id/xmlui/handle/123456789/89643

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	MAUDUDIE, Achmad	-
dc.contributor.advisor	RETNANI, Windi Eka Yulia	-
dc.contributor.author	ROHIM, Muhamat Abdul	-
dc.date.accessioned	2019-02-20T07:12:08Z	-
dc.date.available	2019-02-20T07:12:08Z	-
dc.date.issued	2019-02-20	-
dc.identifier.nim	NIM142410101010	-
dc.identifier.uri	http://repository.unej.ac.id/handle/123456789/89643	-
dc.description.abstract	Situs berita, sebagai salah satu penyedia informasi, merupakan web yang sangat sering dikunjungi. Berdasarkan Alexa Traffic Rank (ATR), ada tiga situs berita yang termasuk sebagai 10 situs dengan akses tertinggi di Indonesia, yaitu www.detik.com, www.tribunnews.com, dan www.liputan6.com. Sebagai situs berita, ketiga situs web tersebut selalu berusaha menyajikan berita terbaru. Tidak jarang ketiga situs tersebut memuat berita dengan topik yang serupa. Dari hasil observasi awal yang dilakukan peneliti selama 7 hari berturutturut terungkap bahwa berita dengan judul yang mengandung kata kunci “mudik” dimuat sebanyak 499 dalam situs www.detik.com, 423 dalam situs www.tribunnews.com dan 174 berita dalam situs www.liputan6.com. Ketika pengguna membutuhkan data dari ketiga situs itu, pengguna harus melakukan proses pengumpulan data secara manual yaitu dengan mengunjungi setiap situs berita menggunakan aplikasi browser dan melakukan proses copy dan paste untuk setiap halaman yang memuat berita yang dimaksud. Proses pengumpulan data seperti ini membutuhkan usaha yang cukup besar dan waktu yang relatif lama, alternatif lain yang bisa dilakukan adalah dengan menggunakan teknik web scraping. Teknik web scraping adalah teknik pengambilan data pada file html secara otomatis berdasarkan pola tag html yang menyusunnya. Teknik ini dapat dilakukan dengan memanfaatkan pola regular expression di dalamnya. Berdasarkan penjelasan sebelumnya, peneliti mencoba membangun sebuah aplikasi yang didasarkan pada teknik web scraping menggunakan pola regular expression untuk mengekstrak data berita dalam laman situs berita secara otomatis dan disimpan dalam sebuah basis data untuk kebutuhan analisis berita. Pola Regex yang dibangun akan didasarkan pada struktur tag html yang digunakan pada masing-masing situs, sehingga akan ditemukan perbedaan pola dari masing-masing situs berita yang diinginkan. Hasil yang ditemukan peneliti setelah melakukan penelitian adalah ditemukannya perbedaan pola penulisan halaman pada masing-masing situs. Perbedaan pola penulisan tersebut mengakibatkan perbedaan pola regex yang digunakan untuk melakukan ekstraksi. Perbedaan ini terletak pada jenis tag dan atribut serta value yang digunakan. Perbedaan pola regex yang ditemukan ini telah di implementasikan pada aplikasi yang dibangun. Proses uji akurasi dilakukan pada tanggal 04 Juli 2018 pukul 08.56 - 08.57 WIB menggunakan tiga metode pengujian, yaitu precission, recall, dan f-measure untuk mengukur tingkat akurasi aplikasi yang dibangun. Hasil uji akurasi terhadap aplikasi menunjukkan bahwa ketiga situs memiliki akurasi sebesar 100%.	en_US
dc.language.iso	id	en_US
dc.relation.ispartofseries	142410101010;	-
dc.subject	Ekstraksi Web	en_US
dc.subject	Metode Ekspresi Reguler	en_US
dc.title	Implementasi Ekstraksi Web (Web Scraping) pada Situs Berita Menggunakan Metode Ekspresi Reguler	en_US
dc.type	Other	en_US
Appears in Collections:	UT-Faculty of Computer Science

Files in This Item:

File	Description	Size	Format
Muhamat Abdul Rohim-142410101010.pdf		3.35 MB	Adobe PDF	View/Open

Show simple item record

Admin Tools

DSpace JSPUI

DSpace preserves and enables easy and open access to all types of digital content including text, images, moving images, mpegs and data sets