بناء نظام ذكي يقوم بالتعرف على الأصناف الموجودة في صورة وتوليد توصيف نصي لهذه الأغراض الموجودة في الصورة.
استخدمنا الشبكات العصبونية الملتفة Convolutional Neural Networks للقيام بعملية استخلاص الأصناف الموجودة في الصورة، وأدخلنا هذه الأصناف إلى شبكة عصبونية تكرارية Recurrent Neural Network للقيام بعملية توليد التوصيف النصي.
No English abstract
Artificial intelligence review:
Research summary
تتناول هذه الورقة البحثية تطوير نموذج جديد قائم على التركيز (attention-based model) لتوليد توصيف نصي للصور. يتم تدريب النموذج باستخدام تقنيات التراجع الخلفي (backpropagation) وتعظيم حد سفلي متغير عشوائيًا (variational lower bound). يتم استخدام قاعدة بيانات MS COCO لتدريب النموذج. تعتمد الورقة على استخدام الشبكات العصبونية الملتفة (CNN) لاستخلاص تمثيلات شعاعية للصور والشبكات العصبونية التكرارية (RNN) لتوليد التوصيف النصي. يتم التركيز على أهمية التركيز في أنظمة الرؤية البشرية وكيف يمكن للنموذج تصحيح الأخطاء عند توليد كلمات غير متوافقة مع الكائنات الموجودة في الصورة. يتم شرح معمارية الشبكات العصبونية الملتفة والتكرارية بالتفصيل، بالإضافة إلى كيفية تدريب النموذج باستخدام مكتبة TensorFlow. يتم تقديم نتائج التدريب على 10000 صورة من قاعدة بيانات MS COCO، حيث بلغت نسبة الدقة حوالي 70%.
Critical review
تعد الورقة البحثية مساهمة قيمة في مجال توليد التوصيف النصي للصور باستخدام نماذج التركيز. ومع ذلك، يمكن تحسينها من خلال تقديم تحليل أعمق لأداء النموذج على مجموعات بيانات مختلفة وتقديم مقارنة مع نماذج أخرى مشابهة. كما يمكن تحسين الورقة من خلال تقديم تفاصيل أكثر حول كيفية تحسين النموذج للتعامل مع الصور ذات التعقيد العالي. بالإضافة إلى ذلك، يمكن تحسين الورقة من خلال تقديم تحليل أعمق للأخطاء التي يرتكبها النموذج وكيفية تصحيحها.
Questions related to the research
-
ما هي التقنية المستخدمة لتدريب النموذج في الورقة البحثية؟
يتم تدريب النموذج باستخدام تقنيات التراجع الخلفي (backpropagation) وتعظيم حد سفلي متغير عشوائيًا (variational lower bound).
-
ما هي قاعدة البيانات المستخدمة لتدريب النموذج؟
تم استخدام قاعدة بيانات MS COCO لتدريب النموذج.
-
ما هي نسبة الدقة التي حققها النموذج المدرب على قاعدة بيانات MS COCO؟
بلغت نسبة الدقة حوالي 70%.
-
ما هي الشبكات العصبونية المستخدمة في النموذج لتوليد التوصيف النصي؟
تم استخدام الشبكات العصبونية الملتفة (CNN) لاستخلاص تمثيلات شعاعية للصور والشبكات العصبونية التكرارية (RNN) لتوليد التوصيف النصي.
References used
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. Kelvin Xu. 2016
A Critical Review of Recurrent Neural Networks for Sequence Learning. Zachary C. Lipton, John Berkowitz, Charles Elkan. June 5th, 2015
CS231n Convolutional Neural Networks for Visual Recognition
Modern web content - news articles, blog posts, educational resources, marketing brochures - is predominantly multimodal. A notable trait is the inclusion of media such as images placed at meaningful locations within a textual narrative. Most often,
The task of news article image captioning aims to generate descriptive and informative captions for news article images. Unlike conventional image captions that simply describe the content of the image in general terms, news image captions follow jou
This research will show a sturdy method to hide a text file into an
image using least significant bit algorithm and encrypting this text,
which allows to store English and Arabic texts with various sizes
and ensure that the text file is delivered correctly and secretly.
We propose Visual News Captioner, an entity-aware model for the task of news image captioning. We also introduce Visual News, a large-scale benchmark consisting of more than one million news images along with associated news articles, image captions,
Image captioning has conventionally relied on reference-based automatic evaluations, where machine captions are compared against captions written by humans. This is in contrast to the reference-free manner in which humans assess caption quality. In t