Dengesiz veri setlerinde aşırı örnekleme teknikleri ile makine öğrenmesi yaklaşımlarının karşılaştırılması
Yükleniyor...
Dosyalar
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Bursa Teknik Üniversitesi, Lisansüstü Eğitim Enstitüsü
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Endüstriyel bir tesisin faaliyetlerini kesintisiz bir şekilde devam ettirebilmesi için, o tesisi oluşturan ekipman ve sistemlerin kullanım ömürlerini uzatmak ve arızi duruşları engellemek amacıyla yapılan teknik ve idari işlerin tümüne bakım denir. Endüstriyel bakım faaliyetlerin yetersizliğinden ileri gelen plansız duruşların ve kazaların ortaya çıkardığı maliyetler işletmeler için ciddi riskler teşkil etmektedir. Birçok işletme geleneksel bakım yaklaşımları ile bu riskleri yönetmeye çalışsa da başarıları kısıtlı kalabilmektedir. Teknolojideki gelişmelerin ışığında bakım stratejilerini güncelleyen ve ileri taşıyan şirketler ilgili riskleri ve kayıpları daha etkin bir şekilde yönetme imkanına sahiptir. Sahadan ve ekipmanlar üzerinden toplanan verilerin analiz edilerek potansiyel arızaların henüz oluşmadan önce tahmin edilebilmesine ve buna yönelik yürütülen bakım faaliyetlerine kestirimci bakım denir. Nesnelerin interneti (Internet of Things – IoT) alanındaki gelişmeler ve siber fiziksel sistemlerin entegrasyonu ile endüstriyel ekipmanlar üzerinden verilerin gerçek zamanlı bir şekilde toplanması kolaylaşmıştır. Bu verilerin yapay zekâ algoritmaları ile işlenmesinden elde edilen tahmine dayalı analitik çıkarımlar ise kestirimci bakım stratejilerine yeni bir boyut kazandırmıştır. Kestirimci bakım ve arıza tespiti gibi problemlerde tahmine dayalı bir analitik model ortaya koymak istediğimizde, bu olayların doğası gereği dengesiz sınıf dağılımına sahip bir veri kümeleri karşımıza çıkar. Genellikle arıza olmayan bir durumu ifade eden gözlem sayısı, arıza durumunu temsil eden gözlemlerden çok fazladır. Dengesiz veri setlerinde yapay zekâ algoritmaları ile sınıflandırma yapmak önemli zorluklar içerir. Çünkü algoritmalar daha fazla sayıda gözlemin olduğu arıza olmama durumunu ifade eden bilgileri ezberleme eğiliminde olur. Bu sorun ise gerçek hayat uygulamasında algoritmalar ile arızaların tespit edilmesini zorlaştırır. Bu çalışmada, endüstriyel ortamdaki ekipmanlardan toplanmış verileri temsil eden 2 farklı veri seti üzerinde yapay zekâ algoritmaları kullanılarak bir sınıflandırma görevi gerçekleştirilmiştir. Dengesiz sınıf verisi dağılımına sahip olan her iki veri setinde, aşırı uyumlanma (overfitting) probleminin önüne geçebilmek için eğitim verileri üzerinde çeşitli aşırı örnekleme yöntemler ve hibrit yöntemler denenerek veri setleri dengeli hale getirilmiştir. Dengelenmiş veri setleri kullanılarak bağımsız (tekil) makine öğrenme algoritmaları, kollektif öğrenmeye dayalı makine öğrenmesi algoritmaları ve derin öğrenme algoritmaları ile oluşturulan modeller vasıtasıyla sınıflandırma yapılmıştır. Modellerin başarı performansları başta Cohen Kappa skoru olmak üzere, F1 skoru, duyarlılık ve doğruluk metrikleri açısından değerlendirilmiştir. Kolektif öğrenmeye dayalı makine öğrenmesi algoritmalarının her iki veri setinde de diğer algoritmalardan daha yüksek performans gösterdiği görülmüştür. Ayrıca veri seti dengeleme yöntemlerinin, kolektif öğrenmeye dayalı makine öğrenmesi algoritmalarının başarı performansına etkisi incelenmiştir. Farklı yöntemlerle dengelenen veri setlerinde kolektif öğrenme modellerinin performansları değişkenlik gösterirken, genel olarak rastgele örnekleme yöntemi ile dengeli hale getirilen veri setlerinde daha iyi performans elde edilmiştir. Yapılan bu tez çalışmasında, dengesiz veri setlerinde sınıflandırma görevi için model başarımına etki eden parametreler çok yönlü bakış açısıyla ortaya konulmuştur.
Industrial maintenance covers all the technical and administrative operations to extend the lifetime of the equipments and avoid from unplanned system failures in order to ensure the manufacturing facilities uninterruptedly. The cost of unplanned breakdowns and accidents caused by insufficient maintenance operations brings serious risks for the industrial organizations. Although many facilities try to manage these risks with traditional maintenance approaches, their success may be limited. Companies that update and advance their maintenance strategies in the way of technological developments have the opportunity to manage related risks and losses more effectively. The analysis of data collected from sensors and equipment, allowing for the prediction of potential failures before they occur, and the maintenance activities conducted based on these predictions, is called predictive maintenance. With the developments in the Internet of Things (IoT) and the integration of cyber-physical systems, it has become easier to collect data in real time via industrial equipment. Analytic insights based on the processing of this data with artificial intelligence algorithms have brought a new dimension to predictive maintenance strategies. When we aim to devise an analytical model based on prediction for problems such as predictive maintenance and fault detection, we are faced with a dataset with an imbalanced class distribution, due to the nature of these events. The number of observations representing the non-faulty condition usually far exceeds the observations representing the faulty condition. Classifying imbalanced datasets using artificial intelligence algorithms poses significant challenges, as algorithms tend to overfit with the information representing the non-faulty condition, where there is a larger number of observations. This issue makes it difficult to detect failures using algorithms in real-life applications. In this study, artificial intelligence algorithms were used to perform a classification task on two different datasets representing data collected from equipment in an industrial environment. To prevent the problem of overfitting on both datasets with imbalanced class data distributions, various oversampling methods and hybrid methods were applied on the training data to balance the datasets. Classification was performed using models created with standalone machine learning algorithms, ensemble learning algorithms, and deep learning algorithms, using the balanced datasets. The performance of the models was evaluated in terms of the Cohen Kappa score, F1 score, recall, and accuracy. Ensemble learning algorithms carried out higher performance than the other algorithms in both datasets. The effect of the data balancing methods on the performance of ensemble learning algorithms was also analysed. The performance of the ensemble learning models varied in the datasets balanced using different methods, but generally performed better in datasets balanced using random sampling. In this thesis, the parameters affecting model performance for the classification task in imbalanced datasets were presented with a multidimensional perspective.
Industrial maintenance covers all the technical and administrative operations to extend the lifetime of the equipments and avoid from unplanned system failures in order to ensure the manufacturing facilities uninterruptedly. The cost of unplanned breakdowns and accidents caused by insufficient maintenance operations brings serious risks for the industrial organizations. Although many facilities try to manage these risks with traditional maintenance approaches, their success may be limited. Companies that update and advance their maintenance strategies in the way of technological developments have the opportunity to manage related risks and losses more effectively. The analysis of data collected from sensors and equipment, allowing for the prediction of potential failures before they occur, and the maintenance activities conducted based on these predictions, is called predictive maintenance. With the developments in the Internet of Things (IoT) and the integration of cyber-physical systems, it has become easier to collect data in real time via industrial equipment. Analytic insights based on the processing of this data with artificial intelligence algorithms have brought a new dimension to predictive maintenance strategies. When we aim to devise an analytical model based on prediction for problems such as predictive maintenance and fault detection, we are faced with a dataset with an imbalanced class distribution, due to the nature of these events. The number of observations representing the non-faulty condition usually far exceeds the observations representing the faulty condition. Classifying imbalanced datasets using artificial intelligence algorithms poses significant challenges, as algorithms tend to overfit with the information representing the non-faulty condition, where there is a larger number of observations. This issue makes it difficult to detect failures using algorithms in real-life applications. In this study, artificial intelligence algorithms were used to perform a classification task on two different datasets representing data collected from equipment in an industrial environment. To prevent the problem of overfitting on both datasets with imbalanced class data distributions, various oversampling methods and hybrid methods were applied on the training data to balance the datasets. Classification was performed using models created with standalone machine learning algorithms, ensemble learning algorithms, and deep learning algorithms, using the balanced datasets. The performance of the models was evaluated in terms of the Cohen Kappa score, F1 score, recall, and accuracy. Ensemble learning algorithms carried out higher performance than the other algorithms in both datasets. The effect of the data balancing methods on the performance of ensemble learning algorithms was also analysed. The performance of the ensemble learning models varied in the datasets balanced using different methods, but generally performed better in datasets balanced using random sampling. In this thesis, the parameters affecting model performance for the classification task in imbalanced datasets were presented with a multidimensional perspective.
Açıklama
Anahtar Kelimeler
Bilgisayar Mühendisliği Bilimleri, Bilgisayar ve Kontrol, Computer Engineering, Computer Science and Control