اختارت الأبحاث متعددة الوسائط بشكل كبير في مساحة السؤال الرد على المهمة التي يتم تمديدها إلى السؤال المرئي الرد على الرسوم البيانية، والرسوم البيانية الإجابة عليها وكذلك مسألة مساهمة مدخل متعددة الوسائط.ومع ذلك، فإن كل هذه الاستكشافات تنتج إخراج نصي غير مهني كإجابة.في هذه الورقة، نقترح مهمة رواية - MIMOQA - الإدخال المتعدد الوسائط المتعددة الناتج السؤال الرد الذي يكون فيه الإخراج متعدد الوسائط.من خلال التجارب البشرية، نوضح تجريبيا أن هذه النواتج متعددة الوسائط توفر فهما معرفيا أفضل للإجابات.نقترح أيضا إطارا للردا على السؤال متعدد الوسائط، ميكسبرت، يشتمل على اهتماما نصي مشتركا ومرفقيا نحو إنتاج مثل هذا الناتج متعدد الوسائط.تعتمد طريقنا على مجموعة بيانات متعددة الوسائط غير مصنفة لهذه المشكلة من مجموعات البيانات غير المتوفرة للجمهور.نظهر الأداء الفائق ل Mexbert ضد خطوط أساسية قوية على كل من المقاييس التلقائية وكذلك الإنسان.
Multimodal research has picked up significantly in the space of question answering with the task being extended to visual question answering, charts question answering as well as multimodal input question answering. However, all these explorations produce a unimodal textual output as the answer. In this paper, we propose a novel task - MIMOQA - Multimodal Input Multimodal Output Question Answering in which the output is also multimodal. Through human experiments, we empirically show that such multimodal outputs provide better cognitive understanding of the answers. We also propose a novel multimodal question-answering framework, MExBERT, that incorporates a joint textual and visual attention towards producing such a multimodal output. Our method relies on a novel multimodal dataset curated for this problem from publicly available unimodal datasets. We show the superior performance of MExBERT against strong baselines on both the automatic as well as human metrics.
المراجع المستخدمة
https://aclanthology.org/
في العقد المقبل، سنرى حاجة كبيرة لنماذج NLP للإعدادات المحددة التي ينبغي أن تؤخذ فيها تنوع المواقف وأيطراض مختلفة بما في ذلك حركات العين في الاعتبار من أجل فهم نية المستخدم.ومع ذلك، لا يمكن التعامل مع فهم اللغة في الإعدادات الموجودة بمعزل عن غيرها، ح
تشمل اللغة البشرية أكثر من مجرد نص؛كما أنه ينقل العواطف من خلال النغمة والإيماءات.نقدم دراسة حالة لثلاث هندسة بسيطة وفعالة قائمة على المحولات لتنبؤ المعنويات والعاطفة في البيانات متعددة الوسائط.يقوم نموذج الانصهار المتأخر بدمج ميزات Unimodal لإنشاء ت
نقدم نظام TMEKU الخاص بنا المقدم إلى مهمة الترجمة متعددة الوسائط الإنجليزية اليابانية ل WAT 2021. شاركنا في مهمة Flickr30Kent-JP ومهمة MSCOCO MSCOCO MSCOCON تحت الحالة المقيدة باستخدام مجموعات البيانات المقدمة رسميا.توظف نظامنا المقترح محاذاة ناعمة م
مجردة، محاكمة واسعة النطاق واسعة النطاق، هو المنهجية القياسية للعديد من المهام في رؤية الكمبيوتر ومعالجة اللغات الطبيعية.في الآونة الأخيرة، تم اقتراح العديد من الطرق للحصول على رؤوس الرؤية واللغة لمعالجة التحديات عند تقاطع هذين المجالات الرئيسية في م
الترجمة الآلية تؤدي الترجمة الآلية من لغة طبيعية إلى أخرى. تكمن ترجمة الآلات العصبية بمهارة أحدث في الترجمة الآلية، لكنها تتطلب بيانات تدريبية كافية، وهي مشكلة شديدة لترجمة أزواج لغة الموارد المنخفضة. يتم تقديم مفهوم Multimodal في الترجمة الآلية العص