Penerapan Modifikasi Arsitektur YOLOv5 Dengan Convolutional Block Attention Module dan Transformer Untuk Deteksi Helm Keselamatan Pekerja
Abstract
K3 merupakan kegiatan penting yang menjamin kondisi kerja yang aman.
Pengarahan dan kontrol menjadi hal penting yang menjamin terlaksanakannya K3.
Helm keselamatan menjadi alat pelindung diri yang penting dalam menjaga
keselamatan pekerja. Banyak temuan bahwa pekerja mengalami cedera kepala
akibat tidak menggunakan helm keselamatan. Pengawasan penggunaan helm
keselamatan bisa menjadi langkah pencegahan. Pengimplementasian pengawasan
berbasis penglihatan membutuhkan model yang dapat mendeteksi objek dengan
cepat dan real-time. YOLOv5 memiliki kapabilitas unggul untuk tugas deteksi
objek secara real-time. Namun terdapat masalah dalam mendeteksi objek dengan
ukuran dan jarak yang beragam atau multi-scale problem. Kecepatan inferensi yang
dimiliki YOLOv5 memiliki dampak pada kurangnya akurasi yang dihasilkan.
Penerapan modifikasi Transformer, CBAM dan BiFPN berpotensi mengatasi
masalah multi skala dan meningkatkan performa model dalam melakukan tugas
deteksi objek. Penelitian dilakukan dalam 3 tahapan, yaitu preprocessing,
modifikasi arsitektur dan pemodelan. Tahap preprocessing dilakukan pembagian
data citra menjadi 3 set untuk train, test dan valid. Setelah itu parsing dilakukan
untuk mengubah format label dari XML menjadi format YOLO. Kemudian proses
augmentasi dengan mosaic, flipping, scalling dan HSV diatur untuk dijalankan pada
tahap pemodelan. Tahap modifikasi dilakukan dengan melakukan modifikasi pada
arsitektur backbone dan head dengan menambahkan Transformer, CBAM dan
BiFPN. Kemudian tahap pemodelan dilakukan dengan dua proses. Proses pertama
pemodelan dengan arsitektur dasar YOLOv5s. Proses kedua pemodelan dengan
arsitektur yang telah dimodifikasi. Hasil yang didapatkan dari penelitian
menunjukkan bahwa modifikasi pada arsitektur YOLOv5s dengan menambahkan Transformer, CBAM dan BiFPN dapat meningkatkan performa model untuk tugas
deteksi objek. Model dengan kombinasi modifikasi YOLOv5s + Tr + BiFPN dan
YOLOv5s + Tr + CBAM + BiFPN mendapatkan nilai mAP tertinggi yaitu 97.3%.
Nilai mAP yang didapatkan dari modifikasi arsitektur mengalami peningkatan
dimana penelitian sebelumnya mendapatkan mAP 95.3% dengan YOLOv5s dan
tertinggi 95.8% dengan YOLOv5x yang merupakan model paling kompleks dari
YOLOv5. Peningkatan performa deteksi yang didapatkan dari melakukan
modifikasi arsitektur YOLOv5s memiliki pertukaran dengan berkurangnya
kecepatan inferensi karena bertambahnya beban komputasi dari mode