Öznitelik seçim yöntemlerindeki yanlılık etkisinin sınıflandırma başarısı açısından değerlendirilmesi
Küçük Resim Yok
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Bursa Teknik Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Günümüz dünyasında veri her yerde, bol bir şekilde, rahatlıkla ulaşılabilir bir haldedir. Veri bol, elde etmesi kolay ama sürekli olarak artan bir yapıda olması nedeniyle işlenmesi, anlamlı hale getirilmesi giderek zorlaşmaktadır. Özellikle büyük veri çalışmaları, görüntü tabanlı çalışmalar, veri akışı tabanlı çalışmalarda özniteliklerin anlamlı alt kümeler şeklinde azaltılması önem kazanmaktadır. Öznitelik seçimi yapılmazsa, işlemci gücü yoğun bir şekilde kullanılmakta, sınıflandırıcıların eğitim süresi uzamakta ve bu durum da bazı verileri işlenemez hale getirmektedir. Makine öğrenmesinde öznitelik seçimi günümüzde çok ilgi gören bir çalışma alanıdır. Öznitelik seçimi verideki özniteliklerin sayısını azaltarak boyutsallık lanetinden (curse of dimensionality) kaçınmayı amaçlamaktadır. Bu amaç için veriyi çeşitli yaklaşımlarla incelemeye alır, çeşitli karar verme mekanizmaları kullanarak en anlamlı olan öznitelikleri seçer. Öznitelik seçimi yapılırken verinin doğasında bulunan etkiler nedeniyle yanlılık etkisi oluşabilmektedir. Yanlılık etkisi öznitelik seçimini olumsuz yönde etkilemektedir. Öznitelik seçiminde önemli konulardan biri de kullandığımız eğitim, geçerleme (validation) ve test kümesinin iterasyonlar bazlı değişiminin yanlılık etkisi ortaya çıkarmasıdır. Örnek sayısı ile seçilen özniteliklerin değişimi arasındaki ilişki de önemli bir konudur. Örnek sayısının fazla olduğu durumlarda öznitelik seçimi yaptığımızda her seferinde benzer öznitelik alt kümesinin seçilmesi beklenmektedir. Yanlılık etkisinden kaçınmak için çeşitli çapraz geçerleme yöntemleri kullanmak etkiyi azaltma yönünde olumlu bir durum oluşturmaktadır. Veriyi farklı çapraz geçerleme yöntemleri kullanarak öznitelik seçimine sokmamız farklı benzerlik metriği oranı vererek yanlılık etkisinin hangi yöntemde daha az olduğu hakkında bize bilgi vermektedir. Bu konuyla ilgili araştırmalar yoğun bir ilgiyle sürmektedir. Tez çalışmasında üç farklı veri seti ve üç farklı öznitelik seçim yöntemi kullanılarak öznitelik seçimi yapılmıştır. Söz konusu öznitelik seçim yöntemleri de üç farklı çapraz geçerleme yöntemi ve üç farklı sınıflandırıcı ile çalıştırılmıştır. Bu sayede seksen bir farklı çalıştırma yapılmıştır. Yapılan çalışmalar için iki farklı benzerlik metriği kullanılarak yanlılık etkisi gözlemlenmiştir. Elde edilen sonuçlara göre veri setinden ve öznitelik seçim yönteminden bağımsız olarak yanlılık etkisinin en az olduğu çapraz geçerleme yöntemi tespit edilmiştir.
In today's world, data is everywhere, abundant and easily accessible. Data is abundant, easy to obtain, but due to its continuously increasing structure, it is becoming increasingly difficult to process and make it meaningful. Especially in big data studies, image-based studies, data stream-based studies, it is important to reduce attributes into meaningful subsets. Without feature selection, processing power is used intensively, the training time of classifiers is prolonged and this makes some data unprocessable. Feature selection in machine learning is a field of study that has received much attention. Feature selection aims to avoid the curse of dimensionality by reducing the number of features in the data. For this purpose, it examines the data with various approaches and selects the most meaningful attributes using various decision-making mechanisms. When selecting attributes, a bias effect may occur due to the inherent effects of the data. The bias effect negatively affects attribute selection. One of the important issues in feature selection is that the iterative change of the training, validation and test set we use can introduce bias effects. The relationship between the number of samples and the variation of the selected attributes is also an important issue. When we select attributes when the number of instances is large, we expect a similar subset of attributes to be selected each time. In order to avoid the bias effect, using various cross validation methods is a positive way to reduce the effect. Using different cross validation methods for feature selection gives us different similarity metric ratios and gives us information about which method has less bias effect. Research on this topic continues with intense interest. In this thesis, three different datasets and three different feature selection methods were used for feature selection. These feature selection methods were also run with three different cross validation methods and three different classifiers. In this way, eighty-one different runs were performed. Bias effect was observed by using two different similarity metrics for the studies. According to the results obtained, the cross validation method with the least bias effect was determined independently of the dataset and feature selection method.
In today's world, data is everywhere, abundant and easily accessible. Data is abundant, easy to obtain, but due to its continuously increasing structure, it is becoming increasingly difficult to process and make it meaningful. Especially in big data studies, image-based studies, data stream-based studies, it is important to reduce attributes into meaningful subsets. Without feature selection, processing power is used intensively, the training time of classifiers is prolonged and this makes some data unprocessable. Feature selection in machine learning is a field of study that has received much attention. Feature selection aims to avoid the curse of dimensionality by reducing the number of features in the data. For this purpose, it examines the data with various approaches and selects the most meaningful attributes using various decision-making mechanisms. When selecting attributes, a bias effect may occur due to the inherent effects of the data. The bias effect negatively affects attribute selection. One of the important issues in feature selection is that the iterative change of the training, validation and test set we use can introduce bias effects. The relationship between the number of samples and the variation of the selected attributes is also an important issue. When we select attributes when the number of instances is large, we expect a similar subset of attributes to be selected each time. In order to avoid the bias effect, using various cross validation methods is a positive way to reduce the effect. Using different cross validation methods for feature selection gives us different similarity metric ratios and gives us information about which method has less bias effect. Research on this topic continues with intense interest. In this thesis, three different datasets and three different feature selection methods were used for feature selection. These feature selection methods were also run with three different cross validation methods and three different classifiers. In this way, eighty-one different runs were performed. Bias effect was observed by using two different similarity metrics for the studies. According to the results obtained, the cross validation method with the least bias effect was determined independently of the dataset and feature selection method.
Açıklama
Lisansüstü Eğitim Enstitüsü, Bilgisayar Mühendisliği Ana Bilim Dalı, Bilgisayar Mühendisliği Bilim Dalı
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control