Türkçe konuşmacı doğrulama için öz denetimli öğrenme modellerine parametre verimli ince ayar yöntemlerinin uyarlanması

dc.contributor.advisorHanilçi, Cemal
dc.contributor.authorDemirtaş, Selim Can
dc.date.accessioned2026-02-08T15:48:39Z
dc.date.available2026-02-08T15:48:39Z
dc.date.issued2025
dc.departmentBTÜ, Lisansüstü Eğitim Enstitüsü, Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
dc.description07.02.2026 tarihine kadar kullanımı yazar tarafından kısıtlanmıştır.
dc.description.abstractBu tez çalışması, büyük ölçekli ve genellikle İngilizce veri ile önceden eğitilmiş öz-denetimli öğrenme (SSL) modellerinin, Türkçe konuşmacı doğrulama görevine yüksek performans ve düşük hesaplama maliyeti ile uyarlanması problemini ele almaktadır. Çalışmanın temel amacı, WavLM ve Wav2Vec2 gibi son teknoloji SSL modelleri üzerinde parametre verimli ince ayar (PEFT) yöntemlerinin etkinliğini sistematik olarak araştırmaktır. Bu kapsamda, adaptör, düşük mertebeli adaptasyon (LoRA) ve istem ayarlama gibi çeşitli PEFT teknikleri ve bu tekniklerin kombinasyonları, Common Voice Türkçe veri kümesi kullanılarak denenmiş ve sonuçları güçlü bir ECAPA-TDNN referans modeline karşı kıyaslanmıştır. Değerlendirme için eşit hata oranı (EER) ve minimum tespit bedel fonksiyonu (min-DCF) metriklerini dengeleyen özgün bir birleşik skor metriği kullanılmıştır. Deneysel sonuçlar, istem ayarlama yöntemi ile adapte edilen WavLM modelinin, Common Voice Türkçe test kümesinde %13,63 EER ve 1,303 birleşik skor ile en iyi performansı sergilediğini göstermiştir. Bu sonuç, en iyi ECAPA-TDNN senaryosunu (%13,92 EER ve 1,454 birleşik skor) geride bırakarak, SSL modelleri ve PEFT yöntemlerinin, Türkçe gibi düşük kaynaklı dillerde karşılaşılan dil uyumsuzluğu ve veri yetersizliği sorunlarını aşmada üstün bir yaklaşım olduğunu kanıtlamıştır. Bu çalışma, PEFT'in sadece hesaplama açısından verimli bir alternatif olmakla kalmayıp, katastrofik unutma olgusunu önleyerek tam ince ayardan daha iyi performans gösterebildiğini ortaya koymaktadır. Bununla birlikte, modellerin farklı veri dağılımlarına karşı dayanıklılığını ölçmek amacıyla oluşturulan YouTube tabanlı test kümesinde ise SSL modelleri ECAPA-TDNN karşısında daha yüksek hata oranları elde etmiştir. Bu bulgu, modellerin genelleştirme performansları arasındaki farkı, performansın test verisinin özelliklerine duyarlılığını ve veri kümesi ölçeğinin önemini göstermektedir. Sonuç olarak bu tez, Türkçe konuşmacı doğrulama alanında yeni bir tekniğin bilinen durumu performansı belirlemiş ve PEFT yöntemlerinin sistematik bir kıyaslamasını sunan ilk kapsamlı çalışmayı oluşturmuştur.
dc.description.abstractThis thesis addresses the problem of adapting large-scale self-supervised learning (SSL) models, which are predominantly pre-trained on English data, to the task of Turkish speaker verification with high performance and low computational cost. The primary objective of this study is to systematically investigate the effectiveness of parameter-efficient fine-tuning (PEFT) methods on state-of-the-art SSL models, namely WavLM and Wav2Vec2. In this context, various PEFT techniques such as adapters, low-rank adaptation (LoRA), and prompt tuning, along with their combinations, were experimented on using the Common Voice Turkish dataset, and the results were benchmarked against a strong ECAPA-TDNN baseline model. For evaluation, a novel composite score metric was utilized, balancing the equal error rate (EER) and the minimum detection cost function (min-DCF). The experimental results demonstrate that the WavLM model adapted with the prompt tuning method achieved the best performance on Common Voice Turkish test set, with an EER of 13.63% and a combined score of 1.303. This result outperformed the best ECAPA-TDNN scenario (13.92% EER and 1.454 combined score), proving that SSL models and PEFT methods constitute a superior approach for overcoming the challenges of language mismatch and data scarcity in low-resource languages like Turkish. This study reveals that PEFT is not only a computationally efficient alternative but can also yield better performance than full fine-tuning by preventing the catastrophic forgetting phenomenon. However, on a YouTube-based test set designed to measure the models' robustness to different data distributions, SSL models achieved higher error rates compared to ECAPA-TDNN. This finding demonstrates the difference in generalization performance between the models, the sensitivity of performance to the characteristics of the test data, and the importance of dataset scale. Consequently, this thesis sets a new state-of-the-art performance for Turkish speaker verification and provides the first comprehensive study that systematically benchmarks PEFT methods in this domain.
dc.identifier.endpage88
dc.identifier.startpage1
dc.identifier.urihttps://hdl.handle.net/20.500.12885/6285
dc.identifier.yoktezid969635
dc.language.isotr
dc.publisherBursa Teknik Üniversitesi
dc.relation.publicationcategoryTez
dc.rightsinfo:eu-repo/semantics/closedAccess
dc.snmzKA_TEZ_20260207
dc.subjectElektrik ve Elektronik Mühendisliği
dc.subjectElectrical and Electronics Engineering
dc.titleTürkçe konuşmacı doğrulama için öz denetimli öğrenme modellerine parametre verimli ince ayar yöntemlerinin uyarlanması
dc.title.alternativeAdapting parameter-efficient fine-tuning methods to self supervised learning models for Turkish speaker verification
dc.typeMaster Thesis

Dosyalar