Analisis Performa Face Sketch To Photo Transformation Menggunakan Multi Scale Self Attention Generative Adversarial Network
Loading...
Date
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Fakultas Ilmu Komputer
Abstract
Dalam penelitian ini, dijelaskan penerapan Generative Adversarial Network (GAN) yang ditingkatkan dengan multi scale self attention yang diaplikasikan pada arsitektur generator untuk menyelesaikan tugas face sketch to photo transformation. Masalah terpenting yang perlu diatasi adalah rendahnya kualitas visual keluaran face sketch to photo transformation, terutama hilangnya informasi identitas wajah dan risiko overfitting karena kelangkaan data. Dua buah feature extractor yang digunakan dalam percobaan ini adalah AlexNet dan VGG16, keduanya dikombinasikan dengan arsitektur encoder-decoder, baik versi dasar maupun versi yang ditingkatkan dengan multi scale self attention. Dataset yang digunakan adalah CUHK Face Sketch Dataset (CUFS), yang berisi 188 pasang set sketsa dan gambar wajah. Preprocessing dilakukan dengan mengubah ukuran gambar menjadi 256x256 pixel. Generator diimplementasikan dengan multi scale convolution dengan kernel 1x1, 3x3, dan 5x5 untuk menangkap beberapa level fitur lokal. Lebih jauh, perhatian diri dimasukkan untuk fokus pada daerah wajah yang menonjol selama pembuatan gambar. Model dievaluasi menggunakan dua metrik utama: Frechet Inception Distance (FID) dan Structural Similarity Index Measure (SSIM). FID memperkirakan kesamaan distribusi antara prediksi dan kebenaran dasar, sedangkan SSIM memperkirakan kesamaan visual struktural antara keduanya. Hasil eksperimen menunjukkan bahwa kombinasi AlexNet dengan multi scale self attention memberikan kinerja terbaik dengan skor FID minimum 11,4319 dan skor SSIM maksimum 0,4982 pada epoch 50. Konfigurasi di atas memberikan kinerja yang lebih baik daripada kombinasi lain, seperti VGG16, meskipun VGG16 memiliki arsitektur yang lebih dalam. Hal ini menunjukkan bahwa seberapa baik jenis feature extraction dan mekanisme spatial attention yang cocok lebih penting daripada kedalaman jaringan. Model multi scale self attention juga bisa memberikan hasil transformasi wajah yang lebih realistis, simetris, dan lebih tepat daripada yang generator encoder-decoder. Penelitian ini menentukan bahwa penggunaan multi scale self attention pada GAN sangat efektif dalam meningkatkan kualitas visual keluaran sketsa wajah ke konversi foto. AlexNet memang efektif dalam ekstraksi fitur dan dapat mengurangi kemungkinan overfitting karena modelnya lebih ringan. Di masa mendatang, disarankan untuk bereksperimen dengan arsitektur yang lebih baru seperti EfficientNet, dan juga mengeksplorasi penggabungan teknik isser-super-resolution untuk meningkatkan ketajaman hasil transformasi. Bagi para profesional forensik dan pengembang sistem keamanan, sistem ini dapat berfungsi sebagai dasar untuk mengembangkan sistem pengenalan wajah berbasis sketsa yang lebih akurat dan adaptif terhadap batasan data visual.
Description
Reupload Repositori File 05 Maret 2026_Kholif Basri
