Evaluasi Komparatif Teknik Ekstraksi Fitur Untuk Analisis Sentimen
Abstract
Penelitian ini bertujuan untuk mengidentifikasi teknik ekstraksi fitur yang
paling efektif dalam analisis sentimen dan mengevaluasi perbedaan signifikan
dalam performa klasifikasi antara berbagai kombinasi teknik ekstraksi fitur dan
algoritma klasifikasi menggunakan analisis T-test. Empat teknik ekstraksi fitur
yang diuji meliputi Bag of Words (BoW), Term Frequency-Inverse Document
Frequency (TF-IDF), Global Vectors for Word Representation (GloVe), dan
Word2Vec. Selain itu, empat algoritma klasifikasi, yaitu Decision Tree (DT),
Random Forest (RF), Gradient Boosting Classifiers (GBC), dan Support Vector
Machines (SVM) diterapkan pada dua dataset utama: Sentiment140 dan News
Sentiment. Metodologi penelitian mencakup preprocessing data untuk
meningkatkan kualitas teks, pelatihan model, evaluasi kinerja menggunakan matrik
accuracy dan f1-score, serta analisis statistik menggunakan T-test untuk mengukur
perbedaan signifikan antar teknik ekstraksi fitur.
Dataset Sentiment140 menggunakan accuracy sebagai metrik utama,
sedangkan dataset News Sentiment menggunakan f1-score. Hasil penelitian
menunjukkan bahwa algoritma RF memberikan performa terbaik pada kedua
dataset. Kombinasi TF-IDF dan RF menghasilkan accuracy tertinggi sebesar
76.98% pada dataset Sentiment140, dan kombinasi yang sama memberikan f1-score
tertinggi sebesar 84.74% pada dataset News Sentiment. Analisis T-test
menunjukkan bahwa tidak terdapat perbedaan signifikan antara teknik ekstraksi
fitur yang diuji, ditunjukkan dengan nilai p-value > 0,05 untuk semua pasangan
teknik. Hal ini menyiratkan bahwa teknik ekstraksi fitur dapat digunakan secara
fleksibel tanpa memengaruhi hasil klasifikasi secara signifikan.
Penelitian ini memberikan kontribusi penting bagi pengembangan metode
analisis sentimen, khususnya dalam menentukan kombinasi optimal teknik
ekstraksi fitur dan algoritma klasifikasi. Hasilnya diharapkan dapat digunakan
sebagai referensi dalam penelitian lanjutan dan aplikasi praktis dalam berbagai
konteks analisis sentimen