EFFECT OF LANGUAGE MISMATCH ON TURKISH SPEAKER VERIFICATION
Yükleniyor...
Tarih
2017
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Bu çalışmada, arkaplan verisi ile gerçekleştirme verisi arasında konuşulan dil anlamında bir uyumsuzluk olması durumunda Türkçe konuşmalar için konuşmacı tanıma performansı incelenmiştir. Gauss karışım modeli - genel arkaplan modeli sınıflandırıcısı ile mel-frekansı kepstral katsayıları konuşmacılara özgü öznitelikler olarak seçilmiştir. 47 erkek ve 26 bayan konuşmacıdan oluşan Türkçe veritabanı ile yapılan deneylerde görülmüştür ki arkaplan modelini eğitmek için kullanılan seslerin dili ile konuşmacı doğrulama deneylerinde kullanılan dil farklı olduğunda konuşmacı doğrulama performansı dramatik bir şekilde düşmektedir. Örneğin, erkek konuşmacılar için Türkçe ses verileri ile arkaplan modeli eğitildiğinde %1.73 eşit hata oranı elde edilirken, İngilizce sesler ile eğitildiğinde %12.34 eşit hata oranı elde edilmiştir.
In this paper, effect of language mismatch between background data and evaluation data is analyzed for text-independent speaker recognition in particular for Turkish spoken language. Gaussian mixture model with universal background model (GMM-UBM) classifier is utilized using Mel-frequency cepstral coefficients (MFCCs) as speaker-specific features. Experiments conducted on a Turkish speech database consisting of 47 male and 26 female speakers reveals that Turkish speaker recognition performance dramatically degrades in case of language mismatch between UBM and the evaluation data. For example 1.73% and 12.34% equal error rates (EERs) are obtained for male speakers when UBM is trained using Turkish and English data, respectively.
In this paper, effect of language mismatch between background data and evaluation data is analyzed for text-independent speaker recognition in particular for Turkish spoken language. Gaussian mixture model with universal background model (GMM-UBM) classifier is utilized using Mel-frequency cepstral coefficients (MFCCs) as speaker-specific features. Experiments conducted on a Turkish speech database consisting of 47 male and 26 female speakers reveals that Turkish speaker recognition performance dramatically degrades in case of language mismatch between UBM and the evaluation data. For example 1.73% and 12.34% equal error rates (EERs) are obtained for male speakers when UBM is trained using Turkish and English data, respectively.
Açıklama
Anahtar Kelimeler
[No Keywords]
Kaynak
Uludağ Üniversitesi Mühendislik Fakültesi Dergisi
WoS Q Değeri
Scopus Q Değeri
Cilt
22
Sayı
1