3D Convolutional Neural Network untuk Klasifikasi Video
Abstract
Convolutional Neural Nerwork (CNN) merupakan salah satu bagian dari deep feed-forward artificial neural network dimana pada penerapannya banyak digunakan pada computer vision. CNN adalah contoh bagian dari teknologi Artificial Intelligence, suatu kecerdasan buatan yang didemonstrasikan oleh mesin dan saat ini banyak diandalkan di berbagai bidang. Berbagai penelitian dilakukan terus – menerus dengan hasil yang didapat yaitu berbagai macam arsitektur CNN dengan performa semaksimal mungkin dalam klasifikasi citra. Sejumlah penelitian memperkenalkan 3D-CNN, yaitu CNN dengan struktur 3 dimensi yang diklaim memiliki keunggulan dibandingkan dengan 2D-CNN untuk klasifikasi video. Keunggulan utama 3D-CNN yaitu kemampuan ekstraksi fitur secara spasiotemporal (gabungan antara spasial dengan temporal) dimana tidak dapat dilakukan pada 2D-CNN.
Penelitian dilakukan menggunakan arsitektur dasar dari C3D, merupakan arsitektur jenis 3D yang dilatih dan diuji dengan dataset video yaitu UCF11 untuk pengklasifikasian video yang terdiri dari beberapa citra atau frame. Selain itu, percobaan serupa juga dilakukan pada 2D-CNN dengan arsitektur identik. Hasil pengujian CNN berupa akurasi CNN dalam mengklasifikasi video. Akurasi didapat dari ketepatan CNN dalam memprediksi kategori video terhadap kebenarannya. Dari penelitian ini didapat bahwa 3D-CNN memiliki akurasi lebih baik daripada 2D-CNN dalam klasifikasi video dengan selisih kurang lebih 4 hingga 5 persen. Hal tersebut memperlihatkan keunggulan ekstraksi fitur secara spasiotemporal oleh 3D-CNN dimana mampu mendapatkan informasi data video setiap frame dan hubungan informasi antar frame.
Collections
- UT-Faculty of Engineering [4096]