3-boyutlu artık ağ eylem tanıma modeli ile süpermarket video görüntülerinde hırsızlık tespiti

Yükleniyor...
Küçük Resim

Tarih

2022

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Erişim Hakkı

info:eu-repo/semantics/openAccess

Özet

Son zamanlarda, süpermarketlerde hırsızlık tespiti için yapay zekâ modellerine ilgi artmaktadır. Süpermarket hırsızlıkları, süpermarketleri finansal açıdan marketleri zarara sokmaktadır. Bu zararların önüne geçmek için insan hırsızlık eylemine yönelik modeller geliştirilmektedir. Gündelik olarak gerçekleştirilen insan eylemlerini sınıflandırmak için 2-B CNN ve 3- B CNN eylem tanıma modelleri kullanılmaktadır. İnsan eylemi gerçekleştirilirken hem görsel hem de hareket bilgisi içermektedir. Görsel ve hareket bilgisi, uzam-zamansal bilgiyi ifade etmektedir. Eylem tanıma modelleri ile uzam-zamansal eylem bilgisi çıkarılmaktadır. Bu tez çalışmasında, hırsızlık ve hırsızlık olmayan eylem video veri seti oluşturulmuştur. Oluşturulan hırsızlık ve hırsızlık olmayan eylem veri seti videoları 3’er eylemden oluşmaktadır. Hırsızlık eylemleri: eşyaları; cebe koymak, çantaya koymak ve el çantasına koymak şeklindedir. Hırsızlık olmayan eylemler: süpermarkette; yürümek, sabit durmak ve raftan eşya almak şeklindedir. Eğitim veri seti Youtube’den toplanmış ve test veri seti ise bir süpermarket güvenlik kamerasından toplanmıştır. Eğitim veri seti, 161 hırsızlık olmayan eylem, 139 hırsızlık eylemi olarak 300 videodan oluşmaktadır. Test veri seti, 140 hırsızlık olmayan eylem, 130 hırsızlık eylemi olarak 270 videodan oluşmaktadır. 3-B CNN modellerini sıfırdan optimize etmek için büyük ölçekli veri setleri gerekmekte aksi halde ağın doğruluk oranı hızla düşmektedir. Oluşturulan hırsızlık eğitim veri seti küçük ölçekli olduğu için büyük ölçekli Kinetics-700 veri setinde önceden eğitilmiş olan 18 katmanlı 3-B Artık Ağ modeli transfer öğrenme ile kullanılmıştır. Temel alınan 3-B Artık Ağ modelinin FC katmanı dışındaki ağırlıkları kullanılmış ve model sadece FC katmanı ağırlıkları güncellenerek eğitilmiştir. Hırsızlık eylemini daha detaylı incelemek ve sınıflandırmak için modele ait 12 versiyon oluşturulmuştur. Oluşturulan versiyonlar, parametre olarak birbirinden farklıdır. Versiyonlar, girdi görüntüsü boyutu, çerçeve uzunluğu ve parti büyüklüğü olarak farklılık göstermektedir. Versiyonlar; RGB girdi görüntüsü almakta ve 200 adımda eğitilmiştir. Elde edilen eğitim ve test sonuçları doğruluk oranları bakımından karşılaştırılmıştır. Eğitim ve test sonuçları neticesinde Versiyon 1 sırasıyla, %88,0 ve %77,0 doğruluk oranları ile en iyi sonuca sahip modeldir. Versiyon 1: 2242243 RGB girdi görüntüsü, 32 çerçeve uzunluğu ve 12 parti büyüklüğüne sahiptir. Süpermarkette hırsızlık tespiti yapabilen 18 katmanlı 3-B Artık Ağ modeli geliştirilmiştir.
Recently, there has been increasing interest in artificial intelligence models for theft detection in supermarkets. Supermarket thefts are making to lose money for supermarkets financially. In order to prevent these losses, models for human theft action are being developed. 2-D CNN and 3-D CNN action recognition models are used to classify daily human actions. It contains both visual and movement information while performing human action. Visual and motion information refers to spatio-temporal information. Spatiotemporal action information is extracted with action recognition models. In this thesis study, theft and non-theft action video dataset are generated. The generated theft and non-theft action dataset videos consist of 3 actions each. Acts of theft: belongings to; put in a pocket, put in a bag, and put in a handbag. Non-theft acts: in the supermarket; walking, standing still, and picking up items from the shelf. The training dataset was collected from Youtube and the test dataset was collected from a supermarket security camera. The training dataset consists of 300 videos as 161 non-theft actions and 139 theft actions. The test dataset consists of 270 videos as 140 non-theft actions and 130 theft actions. Optimizing 3-D CNN models from scratch requires large-scale datasets, otherwise, the accuracy of the network drops rapidly. Since the generated theft training dataset is small-scale, the 18-layer 3-D Residual Network model, which was pre-trained in the large-scale Kinetics-700 dataset, was used with transfer learning. The weights of the underlying 3-D Residual Network model except the FC layer are used and the model is trained by updating only the FC layer weights. In order to examine and classify the act of theft in more detail, a deep model is trained 12 times with different parameters. The versions created are different from each other in terms of parameters. Versions differ in input image size, frame length, and batch size. Versions; takes an RGB input image and is trained in 200 epochs. Obtained training and test results were compared in terms of accuracy. As a result of the training and test results, Version 1 is the model with the best results with 88.0% and 77.0% accuracy rates, respectively. Version 1 has, 2242243 RGB input image, 32 frame length and batch size of 12. As a result, an 18-layer 3-D Residual Network model has been developed, capable of detecting theft in the supermarket. A 18 layer 3-D Residual Network model has been developed that can successfully classify the theft action in supermarket.

Açıklama

Anahtar Kelimeler

Theft Detection, Artificial Intelligence, Action Recognition, Convolutional Neural Networks, Hırsızlık Tespiti, Yapay Zekâ, Evrişimsel Sinir Ağları, Eylem Tanıma

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Koleksiyon