Prediksi Harga Saham PT Bank Rakyat Indonesia Tbk Menggunakan Automl H2O
Abstract
Machine learning merupakan bagian dari Artificial Intelligence yang
mempelajari data yang tersedia dan melakukan tugas tanpa arahan. Machine
learning memiliki model yang berbeda-beda disesuaikan dengan kebutuhannya.
Seiring dengan perkembangan zaman, ditemukan Auto Machine Learning
(AutoML). Salah satu perusahaan yang mengembangkan AutoML adalah H2O.ai
dengan library open source bernama H2OAutoML. Perusahaan ini memudahkan
praktisi dalam menyederhanakan dan mempercepat pengembangan model yang
akurat. H2OAutoML melatih machine learning, tuning parameter, dan
mengevaluasi model secara otomatis. Model dalam H2OAutoML sangat
beragam, tetapi penulis membatasi model. Model yang digunakan adalah GLM,
GBM, DRF, dan stacked ensemble. GLM merupakan model regresi yang bekerja
berdasarkan distribusi probabilitas data. Distribusi probabilitas data ditentukan
secara otomatis oleh H2OAutoML, model GLM ini menggunakan distribusi
gaussian karena variabel independen memiliki tipe data numerik. GLM pada
H2OAutoML bekerja dengan memaksimalkan fungsi log likelihood dikurangi
dengan regularisasi penalty. Regularisasi penalty juga ditentukan secara otomatis
untuk menghindari overfitting. Model GLM ini menggunakan regresi ridge
sehingga tidak ada koefisien yang diredam. DRF pada H2OAutoML mencakup
model DRF dan XRT, model DRF sama seperti model random forest.
Sedangkan model XRT merupakan perkembangan dari model random forest,
XRT membangun pohon dengan dataset asli. Model DRF dan XRT membangun
pohon secara kompleks sehingga menghasilkan prediksi cukup akurat. Model
GBM merupakan ensemble boosting dari decision tree. Model GBM tidak
membangun pohon secara kompleks tetapi menghasilkan prediksi cukup akurat
karena GBM membangun pohon dengan menyesuaikan pohon baru melalui fungsi
kerugian. Stacked ensemble merupakan gabungan dari beberapa model yang telah
digunakan sebelumnya, yaitu model GLM, DRF, XRT, dan GBM. Model
metelearner yang digunakan untuk stacked ensemble adalah model GLM. Stacked
ensemble dibangun secara otomatis oleh H2OAutoML. Pengukuran model
menggunakan metrik evaluasi secara otomatis dibuat oleh H2OAutoML yaitu
RMSE, MSE, MAE, RMSLE, dan deviance dalam bentuk papan peringkat. Papan
peringkat mengurutkan berdasarkan nilai deviance terkecil sebagai model
terbaiknya yaitu stacked ensemble. Base model yang paling baik yang dihasilkan
H2OAutoML adalah GBM. Namun ketika base model digabungkan dengan teknik
stacking mengasilkan prediksi yang lebih baik lagi.