محتوى الويب الحديث - المقالات الإخبارية، منشورات المدونة، الموارد التعليمية، كتيبات التسويق - هي في الغالب متعددة الوسائط.سمة ملحوظة هي إدراج وسائل الإعلام مثل الصور الموضوعة في مواقع ذات مغزى ضمن سرد نصي.في أغلب الأحيان، مصحوبة مثل هذه الصور بتعليقات تعليق - إما واقعية أو أسلوبية (مضحكة، مجازية، إلخ) - صنع السرد أكثر مشاركة للقارئ.في حين تم دراسة تصوير الصورة المستقلة على نطاق واسع، فإن تقسيم صورة استنادا إلى المعرفة الخارجية مثل نصها المحيط لا يزال غير مستكشفا.في هذه الورقة، ندرس هذه المهمة الجديدة: بالنظر إلى صورة ومقتيم معرفة غير منظم مرتبطة، فإن الهدف هو إنشاء تعليق سياقي للصورة.
Modern web content - news articles, blog posts, educational resources, marketing brochures - is predominantly multimodal. A notable trait is the inclusion of media such as images placed at meaningful locations within a textual narrative. Most often, such images are accompanied by captions - either factual or stylistic (humorous, metaphorical, etc.) - making the narrative more engaging to the reader. While standalone image captioning has been extensively studied, captioning an image based on external knowledge such as its surrounding text remains under-explored. In this paper, we study this new task: given an image and an associated unstructured knowledge snippet, the goal is to generate a contextual caption for the image.
المراجع المستخدمة
https://aclanthology.org/
من المتوقع أن تحتوي أنظمة التسمية على الصور القدرة على الجمع بين المفاهيم الفردية عند وصف المشاهد مع مجموعات المفاهيم التي لم يتم ملاحظتها أثناء التدريب. على الرغم من التقدم الكبير في تقسيم الصور بمساعدة إطار الجيل التلقائي التلقائي، تفشل النهج الحال
مهمة تقصير صورة المقال الإخباري يهدف إلى توليد تعليق وصفية وغنية بالمعلومات لصور المقالة الإخبارية.على عكس التسميات التوضيحية التقليدية التي تصف ببساطة محتوى الصورة بمصطلحات عامة، تتبع تعليق الصور الإخبارية إرشادات صحفية وتعتمد اعتمادا كبيرا على الكي
دفعت التدريب المسبق متعدد الوسائط إلى التقدم الرائع في أبحاث الرؤية واللغة. هذه النماذج المدربة مسبقا واسعة النطاق، على الرغم من نجاحها، تعاني مصححة من سرعة الاستدلال البطيء بسبب التكلفة الحسابية الهائلة بشكل أساسي من الاهتمام عبر الوسائط في بنية محو
نقترح أن نقترح Captioner أخبار البصرية، وهو نموذج كيائن كيائن لمهمة تقسيم صورة الأخبار. نقدم أيضا Visual News، وهو معيار واسع النطاق يتكون من أكثر من مليون صورة إخبارية إلى جانب المقالات الإخبارية المرتبطة، وتستياؤ الصور، ومعلومات المؤلف، والبيانات ا
بناء نظام ذكي يقوم بالتعرف على الأصناف الموجودة في صورة وتوليد توصيف نصي لهذه الأغراض الموجودة في الصورة.
استخدمنا الشبكات العصبونية الملتفة Convolutional Neural Networks للقيام بعملية استخلاص الأصناف الموجودة في الصورة، وأدخلنا هذه الأصناف إلى شبكة