ترغب بنشر مسار تعليمي؟ اضغط هنا

توليد توصيف نصي للصور

Image Captioning

1156   0   121   0 ( 0 )
 تاريخ النشر 2018
  مجال البحث الهندسة المعلوماتية
والبحث باللغة العربية
 تمت اﻹضافة من قبل adam oudaimah




اسأل ChatGPT حول البحث

بناء نظام ذكي يقوم بالتعرف على الأصناف الموجودة في صورة وتوليد توصيف نصي لهذه الأغراض الموجودة في الصورة. استخدمنا الشبكات العصبونية الملتفة Convolutional Neural Networks للقيام بعملية استخلاص الأصناف الموجودة في الصورة، وأدخلنا هذه الأصناف إلى شبكة عصبونية تكرارية Recurrent Neural Network للقيام بعملية توليد التوصيف النصي.


ملخص البحث
تتناول هذه الورقة البحثية تطوير نموذج جديد قائم على التركيز (attention-based model) لتوليد توصيف نصي للصور. يتم تدريب النموذج باستخدام تقنيات التراجع الخلفي (backpropagation) وتعظيم حد سفلي متغير عشوائيًا (variational lower bound). يتم استخدام قاعدة بيانات MS COCO لتدريب النموذج. تعتمد الورقة على استخدام الشبكات العصبونية الملتفة (CNN) لاستخلاص تمثيلات شعاعية للصور والشبكات العصبونية التكرارية (RNN) لتوليد التوصيف النصي. يتم التركيز على أهمية التركيز في أنظمة الرؤية البشرية وكيف يمكن للنموذج تصحيح الأخطاء عند توليد كلمات غير متوافقة مع الكائنات الموجودة في الصورة. يتم شرح معمارية الشبكات العصبونية الملتفة والتكرارية بالتفصيل، بالإضافة إلى كيفية تدريب النموذج باستخدام مكتبة TensorFlow. يتم تقديم نتائج التدريب على 10000 صورة من قاعدة بيانات MS COCO، حيث بلغت نسبة الدقة حوالي 70%.
قراءة نقدية
تعد الورقة البحثية مساهمة قيمة في مجال توليد التوصيف النصي للصور باستخدام نماذج التركيز. ومع ذلك، يمكن تحسينها من خلال تقديم تحليل أعمق لأداء النموذج على مجموعات بيانات مختلفة وتقديم مقارنة مع نماذج أخرى مشابهة. كما يمكن تحسين الورقة من خلال تقديم تفاصيل أكثر حول كيفية تحسين النموذج للتعامل مع الصور ذات التعقيد العالي. بالإضافة إلى ذلك، يمكن تحسين الورقة من خلال تقديم تحليل أعمق للأخطاء التي يرتكبها النموذج وكيفية تصحيحها.
أسئلة حول البحث
  1. ما هي التقنية المستخدمة لتدريب النموذج في الورقة البحثية؟

    يتم تدريب النموذج باستخدام تقنيات التراجع الخلفي (backpropagation) وتعظيم حد سفلي متغير عشوائيًا (variational lower bound).

  2. ما هي قاعدة البيانات المستخدمة لتدريب النموذج؟

    تم استخدام قاعدة بيانات MS COCO لتدريب النموذج.

  3. ما هي نسبة الدقة التي حققها النموذج المدرب على قاعدة بيانات MS COCO؟

    بلغت نسبة الدقة حوالي 70%.

  4. ما هي الشبكات العصبونية المستخدمة في النموذج لتوليد التوصيف النصي؟

    تم استخدام الشبكات العصبونية الملتفة (CNN) لاستخلاص تمثيلات شعاعية للصور والشبكات العصبونية التكرارية (RNN) لتوليد التوصيف النصي.


المراجع المستخدمة
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. Kelvin Xu. 2016
A Critical Review of Recurrent Neural Networks for Sequence Learning. Zachary C. Lipton, John Berkowitz, Charles Elkan. June 5th, 2015
CS231n Convolutional Neural Networks for Visual Recognition
قيم البحث

اقرأ أيضاً

محتوى الويب الحديث - المقالات الإخبارية، منشورات المدونة، الموارد التعليمية، كتيبات التسويق - هي في الغالب متعددة الوسائط.سمة ملحوظة هي إدراج وسائل الإعلام مثل الصور الموضوعة في مواقع ذات مغزى ضمن سرد نصي.في أغلب الأحيان، مصحوبة مثل هذه الصور بتعليقا ت تعليق - إما واقعية أو أسلوبية (مضحكة، مجازية، إلخ) - صنع السرد أكثر مشاركة للقارئ.في حين تم دراسة تصوير الصورة المستقلة على نطاق واسع، فإن تقسيم صورة استنادا إلى المعرفة الخارجية مثل نصها المحيط لا يزال غير مستكشفا.في هذه الورقة، ندرس هذه المهمة الجديدة: بالنظر إلى صورة ومقتيم معرفة غير منظم مرتبطة، فإن الهدف هو إنشاء تعليق سياقي للصورة.
مهمة تقصير صورة المقال الإخباري يهدف إلى توليد تعليق وصفية وغنية بالمعلومات لصور المقالة الإخبارية.على عكس التسميات التوضيحية التقليدية التي تصف ببساطة محتوى الصورة بمصطلحات عامة، تتبع تعليق الصور الإخبارية إرشادات صحفية وتعتمد اعتمادا كبيرا على الكي انات المسماة لوصف محتوى الصورة، غالبا ما يرسم السياق من المقالة بأكملها.في هذا العمل، نقترح نهجا جديدا لهذه المهمة، بدافع من إرشادات التسمية التوضيحية التي يتبعها الصحفيون.نهجنا، المبادئ التوجيهية الصحفية تدرك صورة أخبار التسمية التوضيحية (Joganic)، ترفد بنية التسميات التوضيحية لتحسين جودة الجيل وتوجيه تصميم التمثيل الخاص بنا.النتائج التجريبية، بما في ذلك دراسات التفصيل التفصيلية، على مجموعة من مجموعات بيانات واسعة النطاق للجمهورية على نطاق واسع أن جوجاني يتفوق بشكل كبير على الأساليب الحديثة على حد سواء على جيل التسمية التوضيحية ومقاييس الكيانية المسمى.
سنعرض في هذا البحث طريقة متقنة لإخفاء ملف نصي داخل صورة باستخدام خوارزمية البت الأقل استخداماً و تشفير ذلك النص، مما يسمح بتخزين النصوص باللغة الإنكليزية و العربية و بأحجام مختلفة مما يضمن لنا وصول الملف النصي بالشكل الصحيح و بسرية كبيرة.
نقترح أن نقترح Captioner أخبار البصرية، وهو نموذج كيائن كيائن لمهمة تقسيم صورة الأخبار. نقدم أيضا Visual News، وهو معيار واسع النطاق يتكون من أكثر من مليون صورة إخبارية إلى جانب المقالات الإخبارية المرتبطة، وتستياؤ الصور، ومعلومات المؤلف، والبيانات ا لوصفية الأخرى. على عكس مهمة تقسيم الصور القياسية، تصور الصور الأخبار المواقف التي يكون فيها الأشخاص والمواقع والأحداث ذات أهمية قصوى. يمكن أن تجمع طريقةنا المقترحة بشكل فعال بين الميزات المرئية والنصية لتوليد التسميات التوضيحية مع معلومات أكثر ثراء مثل الأحداث والكيانات. وبشكل أكثر تحديدا، تم تصميمها على بنية المحولات، يتم تزويد نموذجنا بمزيد من المجهز بتقنيات الانصهار متعددة الوسائط على الرواية وآليات الاهتمام، والتي تم تصميمها لتوليد كيانات اسمه أكثر دقة. تستخدم طريقتنا معلمات أقل بكثير مع تحقيق نتائج تنبؤ أفضل قليلا من الأساليب المنافسة. توضح مجموعة بيانات الأخبار المرئية الأكبر والأكثر تنوعا التحديات المتبقية في تصوير الصور الإخبارية.
تم الاعتماد بشكل تقليدي في الصورة على التقييمات التلقائية القائمة على المرجع، حيث يتم مقارنة تعليق الآلات مع التسميات التوضيحية التي كتبها البشر. هذا على النقيض من الطريقة الخالية من المرجعية التي يقوم بها البشر بجودة التسمية التوضيحية. في هذه الورقة ، نبلغ عن النتيجة التجريبية المدهشة التي كليب (Radford et al.، 2021)، نموذج متعدد الوسائط مسبقا على أزواج من صورة 400 متر + التسمية التوضيحية من الويب، يمكن استخدامه للتقييم التلقائي القوي لمعالجة الصور دون الحاجة للحصول على المراجع. تثبت التجارب التي تمتد من عدة شرجي أن قيصرنا الجديد المجاني، مقطورات، يحقق أعلى ارتباط بالأحكام البشرية، مما يتفوق على المقاييس القائمة على المرجع الحالي مثل عصير التفاح والتوابل. تثبت تجارب الحصول على المعلومات على أن Clipscore، مع تركيزها الضيق على توافق نص الصورة، هو تكميلية للمقاييس القائمة على مرجعية موجودة تؤكد على أوجه التشابه النصي النصي. وبالتالي، نقدم أيضا نسخة معدنية مرجعية، Refclipscore، والذي يحقق حتى ارتباط أعلى. تتجاوز مهام الوصف الحرفي، تكشف العديد من دراسات الحالة المجالات التي تنفذ فيها clipscore جيدا (صور Clip-Art، تصنيف النص)، ولكن أيضا حيث إنها أضعف نسبيا مقارنة بالمقاييس المستندة إلى المراجع، على سبيل المثال، التسميات التوضيحية الإخبارية التي تتطلب معرفة سياقية أكثر ثراء وبعد

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا