Saldırıdan haberdar konuşmacı doğrulama için karar maliyeti tabanlı bir öğrenme yaklaşımı

Küçük Resim Yok

Tarih

2025

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Bursa Teknik Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Otomatik konuşmacı doğrulama (Automatic Speaker Verification – ASV) sistemleri, biyometrik kimlik doğrulama alanında hem kullanıcı dostu hem de etkili bir doğrulama aracı olarak önemli bir rol oynamaktadır. Bu sistemler, konuşmacı kimliğini belirlemek veya doğrulamak amacıyla özellikle güvenlik uygulamalarında, erişim kontrol sistemlerinde ve mobil cihaz doğrulamalarında yaygın şekilde kullanılmaktadır. Ancak bu sistemler, yanıltma saldırılarına karşı savunmasız olduğundan güvenlik riskleri barındırmaktadır. Özellikle, tekrar oynatma saldırıları (replay attacks), metinden konuşma sentezleme (text-to-speech synthesis) ve ses dönüştürme (voice conversion) gibi yanıltma saldırıları, konuşmacı doğrulama sistemlerinin güvenliğini tehlikeye atmaktadır. Bu risklere karşı koymak için, saldırı tespit ve önleme yeteneğine sahip çeşitli yanıltma saldırısı tespit (countermeasure - CM) sistemler geliştirilmiştir. Son yıllarda, ASV ve CM sistemlerinin entegrasyonu ile yanıltma saldırılarından haberdar konuşmacı doğrulama sistemlerinin geliştirilmesi çalışmaları yaygınlaşmıştır. Bu yeni nesil sistemler, konuşmacı doğrulama süreçlerini yalnızca kullanıcı doğrulama değil, aynı zamanda yanıltma saldırılarına karşı dayanıklılık açısından da güçlendirmektedir. Bu tez, saldırıdan haberdar konuşmacı doğrulama sistemlerinin geliştirilmesine odaklanmaktadır. Özellikle, çok aşamalı birleştirme yöntemleri, derin öznitelik seviyesinde işlem yapan paralel mimariler ve metrik tabanlı optimizasyon yöntemleri kullanılmıştır. Çalışmada, ECAPA-TDNN, WavLM ve AASIST gibi öncü modeller entegre edilerek hem skor seviyesi hem de derin öznitelik seviyesinde birleştirme teknikleri uygulanmıştır. Bunun yanı sıra, mimariden bağımsız bir değerlendirme metriği olan a- DCF, kayıp fonksiyonu olarak optimize edilmiştir. Bu kapsamda, ASVspoof 2019 ve ASVspoof 5 veri kümeleri üzerinde yapılan kapsamlı deneyler, önerilen yöntemlerin etkinliğini göstermiştir. Elde edilen sonuçlar, hata oranlarında belirgin düşüşler sağlarken, hedef örnekler ile hedef olmayan ve sahte örnekler arasında daha iyi bir ayrım yapılmasını mümkün kılmıştır. Bu tez, mevcut en ileri modeller ve optimizasyon tekniklerinin bir araya getirilmesiyle, biyometrik güvenliğin daha ileri taşınmasına katkıda bulunmaktadır. Özellikle, gerçek dünya uygulamalarında güvenliğin artırılması açısından önemli bir adım atılmıştır. Bu bağlamda, çalışma hem akademik literatüre hem de pratik uygulamalara yönelik değerli bir katkı sunmaktadır.
Automatic Speaker Verification (ASV) systems play a significant role in biometric identity verification, offering both user-friendly and effective authentication solutions. These systems are widely utilized in various applications, including security systems, access control, and mobile device authentication, with the primary goal of identifying or verifying speaker identity. However, ASV systems remain vulnerable to spoofing attacks, thereby posing significant security risks in the absence of proper countermeasures. Specifically, attacks such as replay attacks, text-to-speech synthesis, and voice conversion threaten the reliability of speaker verification systems. To mitigate these threats, various countermeasure (CM) systems have been developed to detect and prevent spoofing attempts. In recent years, there has been a growing body of research on developing spoofing- aware speaker verification systems through the integration of ASV and CM systems. These next-generation systems enhance speaker verification by not only verifying user identity but also improving resilience against spoofing attacks. In particular, multi- stage fusion strategies, parallel architectures operating on deep feature representations, and metric-based optimization methods have been employed. In this study, state-of-the-art models such as ECAPA-TDNN, WavLM, and AASIST are integrated, and both score-level and deep embedding-level fusion techniques are employed. Additionally, a system-independent evaluation metric, the architecture- agnostic detection cost function (a-DCF), is optimized as the loss function. Comprehensive experiments conducted on the ASVspoof 2019 and ASVspoof 5 datasets demonstrate the effectiveness of the proposed methods. The results show significant reductions in error rates and enable more accurate differentiation between target, nontarget and spoof speech samples. This thesis contributes to advancing biometric security by combining cutting-edge models and optimization strategies. It represents a significant step toward enhancing the security of real-world applications. Accordingly, this work offers valuable contributions to both academic research and practical implementations in the field of speaker verification.

Açıklama

Anahtar Kelimeler

Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye