Perbandingan Metode Naive Bayes Classifier dengan Metode Random Forest pada Prediksi Rating Review Drama Korea
Abstract
Drama korea merupakan hiburan atau tayangan TV yang diproduksi oleh
orang korea dimana baik pemeran maupun percakapannya berasal dari korea dan
menggunakan bahasa korea. Drama korea dapat diakses melalui website yang
didalamnya terdapat tempat untuk penonton memberikan nilai rating serta
menuliskan review bagaimana drama yang telah ditonton. Rating dan review
penting bagi tim produksi karena dapat menjadi ukuran apakah drama yang telah
diproduksi tersebut bagus atau tidak. Oleh karena itu, penelitian ini bertujuan untuk
menentukan apakah drama tersebut tergolong bagus, tidak bagus, atau cukup bagus
serta membandingkan dua metode yaitu metode naïve bayes classifier dan metode
random forest dalam memprediksi rating review drama korea.
Penelitian diawali dengan preprocessing review yang akan diklasifikasikan
berdasarkan kelas, selanjutnya membagi data dengan perbandingan 80:20 sehingga
diperoleh 6339 data training dan 1585 data testing. Review tersebut akan diprediksi
termasuk dalam kelas yang mana. Setelah memprediksi review, penelitian
dilanjutkan dengan memprediksi rating dengan cara mentransformasi teks review
ke dalam rating 1 hingga 10 dan kemudian diprediksi. Penelitian ini menunjukkan
bahwa metode naïve bayes classifier dan random forest mampu dalam memprediksi
rating review drama korea. Masing-masing dari metode menghasilkan data prediksi
yang sebagian kecilnya termasuk dalam review Bagus dan rating 10. Pada prediksi
review, random forest memperoleh nilai accuracy sebesar 89%, precision sebesar
78%, recall sebesar 63%, dan f1 score sebesar 64%, sedangkan naïve bayes
classifier memperoleh nilai accuracy sebesar 86%, precision sebesar 60%, recall
sebesar 55%, dan f1 score sebesar 56%. Pada prediksi rating juga, random forest
memperoleh nilai accuracy sebesar 41%, precision sebesar 26%, recall sebesar
12%, dan f1 score sebesar 10%, sedangkan naïve bayes classifier memperoleh nilai
accuracy sebesar 40%, precision sebesar 4%, recall sebesar 10%, dan f1 score
sebesar 6%. Kesimpulan dari penelitian ini adalah metode random forest lebih
unggul dan akurat dalam memprediksi rating review drama korea