• Login
    View Item 
    •   Home
    • UNDERGRADUATE THESES (Koleksi Skripsi Sarjana)
    • UT-Faculty of Computer Science
    • View Item
    •   Home
    • UNDERGRADUATE THESES (Koleksi Skripsi Sarjana)
    • UT-Faculty of Computer Science
    • View Item
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Pemodelan Pengenalan Pembicara Bahasa Indonesia Menggunakan Stacking Fitur MFCC dan LPC dengan LSTM Triplet Loss

    Thumbnail
    View/Open
    final fent signed_merge.pdf (5.109Mb)
    Date
    2024-01-16
    Author
    IRSYAD, Dzul Fikri
    Metadata
    Show full item record
    Abstract
    Manusia memiliki faktor pembeda antara manusia yang satu dan manusia yang lain, dan salah satu faktor khas tersebut adalah suara mereka. Bidang mempelajari cara mengidentifikasi suara individu dikenal sebagai pengenalan pembicara. Namun, pengenalan pembicara menghadapi tantangan akibat faktor-faktor seperti kualitas rekaman yang bervariasi, pengaruh lingkungan, dan variasi nada saat berbicara. Ekstraksi fitur yang relevan menjadi sangat penting dalam mengatasi tantangan-tantangan ini, dengan metode seperti MFCC dan LPC memainkan peran kunci dalam menangkap karakteristik yang khas dari setiap suara. Langkah yang dilakukan dengan pengekstrakan sebuah data menggunakan metode yang sudah disebutkan. Setelah ekstraksi fitur, langkah berikutnya melibatkan pemecahan data menjadi beberapa bagian untuk data latih dan tes kemudian data akan pemilihan model, dalam sebuah model, model yang digunakan adalah model deep learning. Dalam pengenalan pembicara deep learning memiliki dua pendekatan: pertama, menganggap seluruh jaringan sebagai pengambil keputusan dengan menggunakan fungsi aktivasi seperti softmax untuk klasifikasi. Pendekatan kedua melibatkan pembelajaran mendalam sebagai ekstraktor embedding, meninggalkan pengambilan keputusan pada metrik seperti cosine similarity atau PLDA, dengan triplet loss function sebagai contoh fungsi yang digunakan untuk melatih model. Penelitian ini bertujuan mengungkap dampak penggabungan fitur dan penggunaan model triplet loss dalam pengenalan pembicara. Hasil menunjukkan bahwa penggabungan dua fitur mengurangi waktu latih, meningkatkan akurasi coverage, dan meminimalkan loss. Meskipun model deep learning base melampaui model triplet dalam hal akurasi, namun model triplet terbukti menguntungkan untuk menerima label baru tanpa perlu pelatihan ulang.
    URI
    https://repository.unej.ac.id/xmlui/handle/123456789/121319
    Collections
    • UT-Faculty of Computer Science [1056]

    UPA-TIK Copyright © 2024  Library University of Jember
    Contact Us | Send Feedback

    Indonesia DSpace Group :

    University of Jember Repository
    IPB University Scientific Repository
    UIN Syarif Hidayatullah Institutional Repository
     

     

    Browse

    All of RepositoryCommunities & CollectionsBy Issue DateAuthorsTitlesSubjectsThis CollectionBy Issue DateAuthorsTitlesSubjects

    My Account

    LoginRegister

    Context

    Edit this item

    UPA-TIK Copyright © 2024  Library University of Jember
    Contact Us | Send Feedback

    Indonesia DSpace Group :

    University of Jember Repository
    IPB University Scientific Repository
    UIN Syarif Hidayatullah Institutional Repository