Türkçe metinlerde farklı temsil modelleri ve öğrenme yöntemleri ile duygu analizi karşılaştırması
Küçük Resim Yok
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Bursa Teknik Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Duygu analizi çalışmaları sosyal medyanın gücünün artması ile birlikte toplum üzerinde hâkim olan duygunun belirlenmesi için oldukça önemlidir. Kişi ya da kurumlar kendileri hakkındaki düşünceleri değerlendirmek ve itibar derecelerini analiz edebilmek için sıklıkla bu tekniğe başvurmaktadırlar. Duygu analiz çalışmalarının kapsamı oldukça geniş olmakla birlikte birçok konuşma dili için çok sayıda araştırma alanı bulunmaktadır. Sürekli gelişen teknoloji ile birlikte duygu analizi için kullanılabilecek yöntem ve metotların sayısındaki artış, yöntem ve metotların kıyaslandığı çalışmaların önemini artırmaktadır. Türkçe dili için yapılan duygu analiz çalışmaları mevcut olup birden fazla veri kümesi üzerinde, ön işlem çalışmalarının yapılarak veya yapılmadan sunulduğu, farklı yöntem ve sınıflandırıcıların kıyaslandığı çalışmaların sayısının yeterli olmadığı görülmektedir. Bu tez çalışmasında, her biri yaklaşık 17 bin Türkçe kullanıcı yorumları içeren KEMİK veri kümesi ve içerisinde alt veri kümeleri bulunan HUMIR veri kümesi kullanılmıştır. Bu veri kümeleri üzerinde hem ön işlem çalışmalarının yapıldığı hem de yapılmadığı versiyonları çalışma kapsamında değerlendirilmiştir. Metinsel verilerin sınıflandırılabilmesi için kullanılan vektörleştirme yöntemleri olarak istatistiksel hesaplamalı yöntem olan TF-IDF, yapay sinir ağlarına dayalı dil modeller olan Word2Vec ve FastText, yapay sinir ağları ile eğitilmiş olasılıksal model olan GloVe ve transformer tabanlı model olan BERT modelleri tercih edilmiştir. Sınıflandırma için klasik makine öğrenmesi yöntemleri ile derin öğrenme tabanlı yöntemler ayrı ayrı kullanılmıştır. Klasik makine öğrenmesi yöntemleri olarak SVM, LR ve NB kullanılırken derin öğrenme tabanlı yöntemler olarak RNN, CNN, LSTM ve CNN+LSTM kullanılmıştır. Veri kümelerinin sahip olduğu sınıf sayısına göre ikili ve çoklu sınıflandırma gerçekleştirmiş olup farklı algoritma kombinasyonları denenmiştir. Elde edilen sonuçlar ile veri ön işlem adımlarının uygulandığı ve uygulanmadığı durumlarda elde edilen başarı değerleri kıyaslandığında veri ön işlem adımlarının başarı değerini büyük oranda etkilemediği görülmüştür. TF-IDF yönteminin klasik makine öğrenmesi yöntemlerinde daha iyi sonuçlar verdiği, yapay sinir ağı temelli metin vektörleştirme yöntemlerinin ise derin öğrenme tabanlı yöntemlerde daha iyi sonuç verdiği görülmüştür. Diğer bir yandan kullanılan hibrit model kombinasyonları ile kullanılan diğer model kombinasyonları kıyaslandığında elde edilen başarı değerleri arasındaki farkın çok yüksek olmadığı anlaşılmıştır.
Sentiment analysis studies have become increasingly important with the growing influence of social media in determining the prevailing sentiment in society. Individuals and organizations often use on sentiment analysis to evaluate public opinions and assess their reputation. The scope of sentiment analysis research is broad, encompassing numerous languages and offering a wide range of research areas. The advancement of technology has led to an increase in the number of methods and techniques available for sentiment analysis, highlighting the significance of comparative studies that assess these methods and techniques. While there are existing sentiment analysis studies for the Turkish language, there is a lack of sufficient research that compares different methods and classifiers, considering multiple datasets with and without preprocessing steps. In this thesis, two datasets were utilized: the KEMİK dataset, consisting of approximately 17,000 Turkish user comments, and the HUMIR dataset, which includes sub-datasets. Both preprocessed and unprocessed versions of the datasets were evaluated in the study. Various vectorization methods were employed for text classification, including the statistical approach TF-IDF, neural language models such as Word2Vec and FastText, the probabilistic model GloVe trained with neural networks, and the transformer-based model BERT. Both classical machine learning methods (SVM, LR, NB) and deep learning-based methods (RNN, CNN, LSTM, CNN LSTM) were utilized for classification. Binary and multi-class classifications were performed based on the number of classes in the datasets, and different algorithm combinations were tested. When the results obtained are compared with the success values obtained in cases where the data preprocessing steps are applied and not applied, it is seen that the data preprocessing steps do not greatly affect the success value. It has been observed that the TF-IDF method yields better results in classical machine learning techniques, while artificial neural network-based word embeddings methods perform better in deep learning-based approaches. On the other hand, when the hybrid model combinations used and the other model combinations used are compared, it is understood that the difference between the success values obtained is not very high.
Sentiment analysis studies have become increasingly important with the growing influence of social media in determining the prevailing sentiment in society. Individuals and organizations often use on sentiment analysis to evaluate public opinions and assess their reputation. The scope of sentiment analysis research is broad, encompassing numerous languages and offering a wide range of research areas. The advancement of technology has led to an increase in the number of methods and techniques available for sentiment analysis, highlighting the significance of comparative studies that assess these methods and techniques. While there are existing sentiment analysis studies for the Turkish language, there is a lack of sufficient research that compares different methods and classifiers, considering multiple datasets with and without preprocessing steps. In this thesis, two datasets were utilized: the KEMİK dataset, consisting of approximately 17,000 Turkish user comments, and the HUMIR dataset, which includes sub-datasets. Both preprocessed and unprocessed versions of the datasets were evaluated in the study. Various vectorization methods were employed for text classification, including the statistical approach TF-IDF, neural language models such as Word2Vec and FastText, the probabilistic model GloVe trained with neural networks, and the transformer-based model BERT. Both classical machine learning methods (SVM, LR, NB) and deep learning-based methods (RNN, CNN, LSTM, CNN LSTM) were utilized for classification. Binary and multi-class classifications were performed based on the number of classes in the datasets, and different algorithm combinations were tested. When the results obtained are compared with the success values obtained in cases where the data preprocessing steps are applied and not applied, it is seen that the data preprocessing steps do not greatly affect the success value. It has been observed that the TF-IDF method yields better results in classical machine learning techniques, while artificial neural network-based word embeddings methods perform better in deep learning-based approaches. On the other hand, when the hybrid model combinations used and the other model combinations used are compared, it is understood that the difference between the success values obtained is not very high.
Açıklama
Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control, Bilim ve Teknoloji