ترغب بنشر مسار تعليمي؟ اضغط هنا

استغلال الصورة - نص التآزر للحصول على تقسيم الصور السياقية

Exploiting Image--Text Synergy for Contextual Image Captioning

536   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

محتوى الويب الحديث - المقالات الإخبارية، منشورات المدونة، الموارد التعليمية، كتيبات التسويق - هي في الغالب متعددة الوسائط.سمة ملحوظة هي إدراج وسائل الإعلام مثل الصور الموضوعة في مواقع ذات مغزى ضمن سرد نصي.في أغلب الأحيان، مصحوبة مثل هذه الصور بتعليقات تعليق - إما واقعية أو أسلوبية (مضحكة، مجازية، إلخ) - صنع السرد أكثر مشاركة للقارئ.في حين تم دراسة تصوير الصورة المستقلة على نطاق واسع، فإن تقسيم صورة استنادا إلى المعرفة الخارجية مثل نصها المحيط لا يزال غير مستكشفا.في هذه الورقة، ندرس هذه المهمة الجديدة: بالنظر إلى صورة ومقتيم معرفة غير منظم مرتبطة، فإن الهدف هو إنشاء تعليق سياقي للصورة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

من المتوقع أن تحتوي أنظمة التسمية على الصور القدرة على الجمع بين المفاهيم الفردية عند وصف المشاهد مع مجموعات المفاهيم التي لم يتم ملاحظتها أثناء التدريب. على الرغم من التقدم الكبير في تقسيم الصور بمساعدة إطار الجيل التلقائي التلقائي، تفشل النهج الحال ية في التعميم بشكل جيد إلى مجموعات مفهوم جديدة. نقترح إطارا جديدا يدور حول التحقيق في العديد من مثيلات تدريب التسمية التوضيحية في الصورة المماثلة (استرجاع)، وأداء المناسبات التناظرية على الكيانات ذات الصلة في النماذج الأولية المستردة (القياس)، وتعزيز عملية التوليد بنتائج المنطق (التكوين). تعزز طريقةنا نموذج الجيل عن طريق الإشارة إلى الحالات المجاورة في التدريب المحدد لإنتاج مجموعات مفهوم جديدة في التسميات التوضيحية المولدة. نقوم بإجراء تجارب على معايير تقسيم الصور المستخدمة على نطاق واسع. تحقق النماذج المقترحة تحسنا كبيرا على أساس الأساس المقارنة على كل من مقاييس التقييم المرتبطة بالتكوين ومقاييس تقسيم الصور التقليدية.
مهمة تقصير صورة المقال الإخباري يهدف إلى توليد تعليق وصفية وغنية بالمعلومات لصور المقالة الإخبارية.على عكس التسميات التوضيحية التقليدية التي تصف ببساطة محتوى الصورة بمصطلحات عامة، تتبع تعليق الصور الإخبارية إرشادات صحفية وتعتمد اعتمادا كبيرا على الكي انات المسماة لوصف محتوى الصورة، غالبا ما يرسم السياق من المقالة بأكملها.في هذا العمل، نقترح نهجا جديدا لهذه المهمة، بدافع من إرشادات التسمية التوضيحية التي يتبعها الصحفيون.نهجنا، المبادئ التوجيهية الصحفية تدرك صورة أخبار التسمية التوضيحية (Joganic)، ترفد بنية التسميات التوضيحية لتحسين جودة الجيل وتوجيه تصميم التمثيل الخاص بنا.النتائج التجريبية، بما في ذلك دراسات التفصيل التفصيلية، على مجموعة من مجموعات بيانات واسعة النطاق للجمهورية على نطاق واسع أن جوجاني يتفوق بشكل كبير على الأساليب الحديثة على حد سواء على جيل التسمية التوضيحية ومقاييس الكيانية المسمى.
دفعت التدريب المسبق متعدد الوسائط إلى التقدم الرائع في أبحاث الرؤية واللغة. هذه النماذج المدربة مسبقا واسعة النطاق، على الرغم من نجاحها، تعاني مصححة من سرعة الاستدلال البطيء بسبب التكلفة الحسابية الهائلة بشكل أساسي من الاهتمام عبر الوسائط في بنية محو ل. عند تطبيقها على تطبيقات الحياة الحقيقية، فإن طلب الكمون والحساب الحساب يردع بشدة الاستخدام العملي للنماذج المدربة مسبقا. في هذه الورقة، ندرس استرجاع نص الصورة (ITR)، سيناريو أكثر نضجا من تطبيق V + L، الذي تمت دراسته على نطاق واسع حتى قبل ظهور النماذج المدربة مسبقا مؤخرا. نقترح نهج بسيط ولكنه فعال للغاية، الذي يسرع وقت الاستدلال في ITR بآلاف المرات، دون التضحية بالدقة. يزيل LightNingdot الاهتمام المتعلق بالعشرات المستهلكة للوقت من خلال استخراج فهارس ميزة ذات مخزيرة مؤقتا في وضع عدم الاتصال، وتوظيف مطابقة منتجات DOT الفورية عبر الإنترنت، والتي تسرع بشكل كبير عملية الاسترجاع بشكل كبير. في الواقع، يحقق LightNingDot أداء فائقا عبر معايير ITR الرئيسية مثل DataSets Flickr30k و Coco، مما يتفوق على النماذج الموجودة المدربة مسبقا تستهلك 1000 مرة من الساعات الحاسوبية باستخدام نفس الميزات.
نقترح أن نقترح Captioner أخبار البصرية، وهو نموذج كيائن كيائن لمهمة تقسيم صورة الأخبار. نقدم أيضا Visual News، وهو معيار واسع النطاق يتكون من أكثر من مليون صورة إخبارية إلى جانب المقالات الإخبارية المرتبطة، وتستياؤ الصور، ومعلومات المؤلف، والبيانات ا لوصفية الأخرى. على عكس مهمة تقسيم الصور القياسية، تصور الصور الأخبار المواقف التي يكون فيها الأشخاص والمواقع والأحداث ذات أهمية قصوى. يمكن أن تجمع طريقةنا المقترحة بشكل فعال بين الميزات المرئية والنصية لتوليد التسميات التوضيحية مع معلومات أكثر ثراء مثل الأحداث والكيانات. وبشكل أكثر تحديدا، تم تصميمها على بنية المحولات، يتم تزويد نموذجنا بمزيد من المجهز بتقنيات الانصهار متعددة الوسائط على الرواية وآليات الاهتمام، والتي تم تصميمها لتوليد كيانات اسمه أكثر دقة. تستخدم طريقتنا معلمات أقل بكثير مع تحقيق نتائج تنبؤ أفضل قليلا من الأساليب المنافسة. توضح مجموعة بيانات الأخبار المرئية الأكبر والأكثر تنوعا التحديات المتبقية في تصوير الصور الإخبارية.
بناء نظام ذكي يقوم بالتعرف على الأصناف الموجودة في صورة وتوليد توصيف نصي لهذه الأغراض الموجودة في الصورة. استخدمنا الشبكات العصبونية الملتفة Convolutional Neural Networks للقيام بعملية استخلاص الأصناف الموجودة في الصورة، وأدخلنا هذه الأصناف إلى شبكة عصبونية تكرارية Recurrent Neural Network للقيام بعملية توليد التوصيف النصي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا