Image Caption Generation Supported Information and Recommender System for Tourists, Including Supplements for Individuals With Disabilities
Küçük Resim Yok
Tarih
2023
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Ali KARCI
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Tourism is one of the most important tools for individuals to interact with different cultures. A web application has been developed that includes information and recommendation system functions supported by image captioning, which will bring significant technological and social innovation to the tourism sector and includes additions for disabled individuals. In this application, a data set covering popular places in Izmir, including nearby popular, historical, and touristic places was created using location information obtained with the GPS system. The Apriori Algorithm, which is a statistical method, was used to deliver popular places more effectively to tourists. A Facilitator Module was designed that performs image captioning and object recognition functions using VGG16 and LSTM models, which are transfer learning models for user input images obtained from visually impaired individuals to help them explore the city. With this module, visually impaired individuals can describe the instant images of streets and objects in the city in textual and auditory form and can also determine whether previously entered keywords (fire, metro, statue, etc.) are present in the image. The data set created from images in MS-COCO, Flicker8k, Flicker30k and Tourism48 data sets was divided into 80% training and 20% test data. Success values were obtained as %55.41 for BLEU-1 and %30.15 for BLEU-2 in the tests conducted.
Turizm, bireylerin farklı kültürlerle etkileşimi için en önemli araçlardan biridir. Turizm sektörüne önemli bir teknolojik ve sosyal yenilik getirecek, turistler için engelli bireylere yönelik ekler de içeren görüntü altyazılama destekli bilgilendirme ve öneri sistemi işlevlerinden oluşan bir web uygulaması geliştirilmiştir. Bu uygulamada, GPS sistemiyle elde edilen konum bilgisi kullanılarak yakın çevredeki gözde mekanların, tarihi ve turistik bölgelerin turistlere daha efektif bir şekilde ulaştırılması amacıyla İzmir’deki gözde mekanları kapsayan bir veri seti oluşturulmuş ve istatistiksel bir yöntem olan Apriori Algoritması kullanılmıştır. Görme engelli bireylerin şehri keşfetmelerine yardımcı olmak amacıyla kullanıcıdan alınan girdi görüntüsü için transfer öğrenme modellerinden olan VGG16 ve LSTM modelleri ile görüntü altyazısı üretme ve nesne tanıma işlevlerini gerçekleştiren bir Kolaylaştırıcı Modül tasarlanmıştır. Bu modül sayesinde görme engelli bireylerin, şehirdeki sokakların ve nesnelerin anlık görüntülerini metinsel ve işitsel olarak tasvir etmeleri ayrıca daha önceden sisteme girdikleri anahtar kelimelerin (yangın, metro, heykel vs.) görüntüde olma durumunu belirleyebilmeleri sağlanmıştır. MS-COCO, Flicker8k, Flicker30k ve Tourism48 veri setlerindeki görüntülerden oluşturulan veri seti; %80 eğitim, %20 test verisi olarak ayrılmıştır. Yapılan testlerde başarı değerleri, BLEU-1 için %55,41 ve BLEU-2 için ise %30,15 olarak elde edilmiştir.
Turizm, bireylerin farklı kültürlerle etkileşimi için en önemli araçlardan biridir. Turizm sektörüne önemli bir teknolojik ve sosyal yenilik getirecek, turistler için engelli bireylere yönelik ekler de içeren görüntü altyazılama destekli bilgilendirme ve öneri sistemi işlevlerinden oluşan bir web uygulaması geliştirilmiştir. Bu uygulamada, GPS sistemiyle elde edilen konum bilgisi kullanılarak yakın çevredeki gözde mekanların, tarihi ve turistik bölgelerin turistlere daha efektif bir şekilde ulaştırılması amacıyla İzmir’deki gözde mekanları kapsayan bir veri seti oluşturulmuş ve istatistiksel bir yöntem olan Apriori Algoritması kullanılmıştır. Görme engelli bireylerin şehri keşfetmelerine yardımcı olmak amacıyla kullanıcıdan alınan girdi görüntüsü için transfer öğrenme modellerinden olan VGG16 ve LSTM modelleri ile görüntü altyazısı üretme ve nesne tanıma işlevlerini gerçekleştiren bir Kolaylaştırıcı Modül tasarlanmıştır. Bu modül sayesinde görme engelli bireylerin, şehirdeki sokakların ve nesnelerin anlık görüntülerini metinsel ve işitsel olarak tasvir etmeleri ayrıca daha önceden sisteme girdikleri anahtar kelimelerin (yangın, metro, heykel vs.) görüntüde olma durumunu belirleyebilmeleri sağlanmıştır. MS-COCO, Flicker8k, Flicker30k ve Tourism48 veri setlerindeki görüntülerden oluşturulan veri seti; %80 eğitim, %20 test verisi olarak ayrılmıştır. Yapılan testlerde başarı değerleri, BLEU-1 için %55,41 ve BLEU-2 için ise %30,15 olarak elde edilmiştir.
Açıklama
1919B012222734
Anahtar Kelimeler
Computer Vision, Bilgisayar Görüşü [EN] Image Processing, Görüntü İşleme [EN] Deep Learning, Derin Öğrenme [EN] Big Data, Büyük Veri [EN] Data Mining and Knowledge Discovery, Veri Madenciliği ve Bilgi Keşfi [EN] Artificial Intelligence (Other), Yapay Zeka (Diğer)
Kaynak
Bilgisayar Bilimleri
Computer Science
Computer Science
WoS Q Değeri
Scopus Q Değeri
Cilt
IDAP-2023 : International Artificial Intelligence and Data Processing Symposium
Sayı
IDAP-2023












