Türkçe sesler ile konuşmacı kimliğinin doğrulanması/belirlenmesi

Yükleniyor...
Küçük Resim

Tarih

2019

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Bursa Teknik Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Konuşmacı tanıma sistemleri son yıllarda oldukça popüler hale gelen ancak üzerinde uzun süredir çalışılmasına rağmen hala istenilen performans başarısı elde edilmemiş bir örüntü tanıma problemidir. Konuşmacı tanıma sistemleri, sesli aramadan telefon bankacılığına, çağrı merkezlerinden adli uygulamalara kadar bir çok alanda aktif olarak kullanılmaktadır. Konuşmacı tanıma alanında yapılan çalışmalar, genellikle İngilizce sesler kullanılarak oluşturulan veritabanlarından elde edilen sonuçları göstermektedir. Türkçe sesler kullanılarak oluşturulan veritabanları ile yapılan çalışmalar az sayıda olduğundan dolayı literatürde bilinen ve uygulanan başarılı yöntemlerin Türkçe sesler üzerindeki performansları hala belirsizdir. Bu sebepten dolayı bu tezde konuşmacı tanıma uygulamalarında literatürde çok sık kullanılan sınıflandırma yöntemlerinden, Gauss Karışım Modeli - Genel Arkaplan Modeli (Gaussian Mixture Model - Universial Background Model), Gauss Karışım Modeli - Destek Vektör Makinaları (Gaussian Mixture Model - Support Vector Machine), Birleşik Etmen Analizi (Joint Factor Analysis - JFA), i-vektör yaklaşımı yöntemleri kullanılarak Türkçe metne bağlı konuşmacı doğrulama sistemi üzerindeki başarı performansları incelenmiştir. Kullanılan sınıflandırma yöntemlerinde Mel - Frekansı Kepstrum Katsayıları (Mel - Frequency Cepstral Coefficients) ve Değiştirilmiş Grup Gecikme Kepstrum Katsayıları (Modified Group Delay Cepstral Coefficients) kullanılarak iki farklı öznitelik yönteminin de konuşmacı tanıma sistemi üzerindeki performans etkisi karşılaştırmalı olarak incelenmiştir. GKM-GAM, GKM-DVM ve JFA sınıflandırıcıları ile yapılan deneysel çalışmalarda 46 konuşmacıdan oluşan Türkçe veritabanı kullanılırken i-vector yaklaşımı kullanılarak yapılan deneysel çalışmalarda ise 59 konuşmacıdan oluşan veritabanı kullanılmıştır. Ayrıca, GKM-GAM sınıflandırıcısıyla yapılan deneylerde, Türkçe sesler ve İngilizce sesler kullanılarak eğitilen arkaplan sesleriyle sistemin dil uyumu arasındaki bağlantının sistem üzerindeki etkisi incelenmiştir. GKM-GAM, GKM-DVM, JFA, i-vektör sınıflandırıcıları ile yapılan deneysel çalışmalarda MFKK ve DGKK olmak üzere, farklı boyutlardaki öznitelik sayılarının ve farklı sayıdaki gauss bileşenlerinin sistem üzerindeki etkisi de karşılaştırmalı olarak ele alınmıştır. Deneysel sonuçlara göre sınıflandırıcılar içerisinden en düşük sistem hatasına sahip olan en başarılı sınıflandırıcı % 4,62 EER değeriyle GKM-GAM sınıflandırıcısı olarak bulunmuştur. Aynı zamanda öznitelik yöntemlerinden MFKK özniteliklerinin DGKK özniteliklerine kıyasla sistem üzerinde daha başarılı sonuçlar verdiği gözlenmiştir.
Speaker recognition is a pattern recognition problem which has become very popular in recent years but it does not achieve the desired performance although long work on it. Speaker recognition systems are actively used in many areas, from voice calls to telephone banking, from call centers to forensic applications. Studies in the field of speaker recognition generally report the results obtained from databases consisting of English recordings. Because of the less number of studies conducted with the databases created by using Turkish voices, the performances of the aplied and known successful methods on Turkish voices are still uncertain. For this reason, in this thesis, the performance on the Turkish text-based speaker verification system was investigated using Gaussian Mixture Model - Universal Background Model (GMM - UBM), Joint Factor Analysis (JFA) and i-vector approach which are well known methods in speaker recognition systems. In the used classification methods, Mel - Frequency Cepstrum Coefficients and Modified Group Delay Cepstral Coefficients were used as the features and the in performance on the speaker recognition system was analyzed comparatively. In the experimental studies conducted with GMM-UBM, GMM-SVM and JFA classifiers, the Turkish database consisting of 46 speakers was used, while in the experimental studies using the i-vector approach, the database consisting of 59 speakers was used. In addition, in the experiments conducted with the GMM-UBM classifier, the effects of connection between the background sounds trained by using Turkish and English recordings and system's language compatibility on the system were examined. In the experimental studies conducted with GMM-UBM, GMM-SVM, JFA, i-vector classifiers, the effect of different number of features and Gaussian components on the system has been discussed comparatively. According to the experimental results, the most successful classifier having the lowest system error among the classifiers was found as GMM-UBM classifier with the value of 4,62% EER. Besides, it was observed that the MFCC features of the yield better performance on the system than the MODGD features.

Açıklama

Anahtar Kelimeler

Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Koleksiyon