Optimasi Algoritma Headposr untuk Estimasi Pose Kepala Menggunakan Backbone Efficientnet
Abstract
Estimasi pose kepala merupakan tugas penting dalam bidang computer
vision yang bertujuan untuk menentukan orientasi kepala seseorang berdasarkan
parameter yaw, pitch, dan roll. Selain itu, dalam penggunaanya, estimasi pose
kepala dapat digunakan untuk mendeteksi fokus perhatian seseorang, misalnya
pada pengemudi kendaraan, pengawasan dan interaksi manusia komputer Namun,
terdapat sebuah tantangan terkait bagaimana meningkatkan akurasi prediksi dengan
waktu komputasi yang lebih efisien, khususnya ketika diterapkan pada perangkat
dengan sumber daya terbatas.
HeadPosr merupakan sebuah aristektur yang digunakan untuk mengatasi
permasalahan estimasi pose kepala. Arsitektur yang digunakan terdiri dari ResNet50 sebagai backbone untuk ekstraksi fitur, diikuti oleh Transformer Encoder yang
bertugas memproses fitur yang telah diekstraksi. Arsitektur ini kemudian
memprediksi tiga parameter utama pose kepala: yaw, pitch, dan roll. Dataset yang
digunakan adalah BIWI, dengan pembagian 70% data untuk pelatihan dan 30% data
untuk pengujian.
Penelitian ini akan menggunakan backbone EfficientNet-B0 untuk
melakukan optimasi arsitektur sebelumnya untuk memperoleh sebuah model yang
lebih efektif dan efisien pada sumber daya terbatas. Penelitian ini mengevaluasi
performa model melalui metrik MAE (Mean Absolute Error), yang menjadi ukuran
utama untuk menilai akurasi prediksi dan waktu pelatihan yang dihasilkan. Hasil
yang diperoleh akan dibandingkan dengan arsitektur sebelumnya.