3-boyutlu artık ağ eylem tanıma modeli ile süpermarket video görüntülerinde hırsızlık tespiti
Yükleniyor...
Dosyalar
Tarih
2022
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Son zamanlarda, süpermarketlerde hırsızlık tespiti için yapay zekâ modellerine ilgi
artmaktadır. Süpermarket hırsızlıkları, süpermarketleri finansal açıdan marketleri
zarara sokmaktadır. Bu zararların önüne geçmek için insan hırsızlık eylemine yönelik
modeller geliştirilmektedir.
Gündelik olarak gerçekleştirilen insan eylemlerini sınıflandırmak için 2-B CNN ve 3-
B CNN eylem tanıma modelleri kullanılmaktadır. İnsan eylemi gerçekleştirilirken hem
görsel hem de hareket bilgisi içermektedir. Görsel ve hareket bilgisi, uzam-zamansal
bilgiyi ifade etmektedir. Eylem tanıma modelleri ile uzam-zamansal eylem bilgisi
çıkarılmaktadır.
Bu tez çalışmasında, hırsızlık ve hırsızlık olmayan eylem video veri seti
oluşturulmuştur. Oluşturulan hırsızlık ve hırsızlık olmayan eylem veri seti videoları
3’er eylemden oluşmaktadır. Hırsızlık eylemleri: eşyaları; cebe koymak, çantaya
koymak ve el çantasına koymak şeklindedir. Hırsızlık olmayan eylemler:
süpermarkette; yürümek, sabit durmak ve raftan eşya almak şeklindedir.
Eğitim veri seti Youtube’den toplanmış ve test veri seti ise bir süpermarket güvenlik
kamerasından toplanmıştır. Eğitim veri seti, 161 hırsızlık olmayan eylem, 139 hırsızlık
eylemi olarak 300 videodan oluşmaktadır. Test veri seti, 140 hırsızlık olmayan eylem,
130 hırsızlık eylemi olarak 270 videodan oluşmaktadır.
3-B CNN modellerini sıfırdan optimize etmek için büyük ölçekli veri setleri
gerekmekte aksi halde ağın doğruluk oranı hızla düşmektedir. Oluşturulan hırsızlık
eğitim veri seti küçük ölçekli olduğu için büyük ölçekli Kinetics-700 veri setinde
önceden eğitilmiş olan 18 katmanlı 3-B Artık Ağ modeli transfer öğrenme ile
kullanılmıştır. Temel alınan 3-B Artık Ağ modelinin FC katmanı dışındaki ağırlıkları
kullanılmış ve model sadece FC katmanı ağırlıkları güncellenerek eğitilmiştir.
Hırsızlık eylemini daha detaylı incelemek ve sınıflandırmak için modele ait 12
versiyon oluşturulmuştur. Oluşturulan versiyonlar, parametre olarak birbirinden
farklıdır. Versiyonlar, girdi görüntüsü boyutu, çerçeve uzunluğu ve parti büyüklüğü
olarak farklılık göstermektedir. Versiyonlar; RGB girdi görüntüsü almakta ve 200
adımda eğitilmiştir. Elde edilen eğitim ve test sonuçları doğruluk oranları bakımından
karşılaştırılmıştır.
Eğitim ve test sonuçları neticesinde Versiyon 1 sırasıyla, %88,0 ve %77,0 doğruluk
oranları ile en iyi sonuca sahip modeldir. Versiyon 1: 2242243 RGB girdi
görüntüsü, 32 çerçeve uzunluğu ve 12 parti büyüklüğüne sahiptir. Süpermarkette
hırsızlık tespiti yapabilen 18 katmanlı 3-B Artık Ağ modeli geliştirilmiştir.
Recently, there has been increasing interest in artificial intelligence models for theft detection in supermarkets. Supermarket thefts are making to lose money for supermarkets financially. In order to prevent these losses, models for human theft action are being developed. 2-D CNN and 3-D CNN action recognition models are used to classify daily human actions. It contains both visual and movement information while performing human action. Visual and motion information refers to spatio-temporal information. Spatiotemporal action information is extracted with action recognition models. In this thesis study, theft and non-theft action video dataset are generated. The generated theft and non-theft action dataset videos consist of 3 actions each. Acts of theft: belongings to; put in a pocket, put in a bag, and put in a handbag. Non-theft acts: in the supermarket; walking, standing still, and picking up items from the shelf. The training dataset was collected from Youtube and the test dataset was collected from a supermarket security camera. The training dataset consists of 300 videos as 161 non-theft actions and 139 theft actions. The test dataset consists of 270 videos as 140 non-theft actions and 130 theft actions. Optimizing 3-D CNN models from scratch requires large-scale datasets, otherwise, the accuracy of the network drops rapidly. Since the generated theft training dataset is small-scale, the 18-layer 3-D Residual Network model, which was pre-trained in the large-scale Kinetics-700 dataset, was used with transfer learning. The weights of the underlying 3-D Residual Network model except the FC layer are used and the model is trained by updating only the FC layer weights. In order to examine and classify the act of theft in more detail, a deep model is trained 12 times with different parameters. The versions created are different from each other in terms of parameters. Versions differ in input image size, frame length, and batch size. Versions; takes an RGB input image and is trained in 200 epochs. Obtained training and test results were compared in terms of accuracy. As a result of the training and test results, Version 1 is the model with the best results with 88.0% and 77.0% accuracy rates, respectively. Version 1 has, 2242243 RGB input image, 32 frame length and batch size of 12. As a result, an 18-layer 3-D Residual Network model has been developed, capable of detecting theft in the supermarket. A 18 layer 3-D Residual Network model has been developed that can successfully classify the theft action in supermarket.
Recently, there has been increasing interest in artificial intelligence models for theft detection in supermarkets. Supermarket thefts are making to lose money for supermarkets financially. In order to prevent these losses, models for human theft action are being developed. 2-D CNN and 3-D CNN action recognition models are used to classify daily human actions. It contains both visual and movement information while performing human action. Visual and motion information refers to spatio-temporal information. Spatiotemporal action information is extracted with action recognition models. In this thesis study, theft and non-theft action video dataset are generated. The generated theft and non-theft action dataset videos consist of 3 actions each. Acts of theft: belongings to; put in a pocket, put in a bag, and put in a handbag. Non-theft acts: in the supermarket; walking, standing still, and picking up items from the shelf. The training dataset was collected from Youtube and the test dataset was collected from a supermarket security camera. The training dataset consists of 300 videos as 161 non-theft actions and 139 theft actions. The test dataset consists of 270 videos as 140 non-theft actions and 130 theft actions. Optimizing 3-D CNN models from scratch requires large-scale datasets, otherwise, the accuracy of the network drops rapidly. Since the generated theft training dataset is small-scale, the 18-layer 3-D Residual Network model, which was pre-trained in the large-scale Kinetics-700 dataset, was used with transfer learning. The weights of the underlying 3-D Residual Network model except the FC layer are used and the model is trained by updating only the FC layer weights. In order to examine and classify the act of theft in more detail, a deep model is trained 12 times with different parameters. The versions created are different from each other in terms of parameters. Versions differ in input image size, frame length, and batch size. Versions; takes an RGB input image and is trained in 200 epochs. Obtained training and test results were compared in terms of accuracy. As a result of the training and test results, Version 1 is the model with the best results with 88.0% and 77.0% accuracy rates, respectively. Version 1 has, 2242243 RGB input image, 32 frame length and batch size of 12. As a result, an 18-layer 3-D Residual Network model has been developed, capable of detecting theft in the supermarket. A 18 layer 3-D Residual Network model has been developed that can successfully classify the theft action in supermarket.
Açıklama
Anahtar Kelimeler
Theft Detection, Artificial Intelligence, Action Recognition, Convolutional Neural Networks, Hırsızlık Tespiti, Yapay Zekâ, Evrişimsel Sinir Ağları, Eylem Tanıma