يفترض أن الحوار المرئي يطلب من محفوظات الحوار إنشاء ردود صحيحة أثناء مربع حوار.ومع ذلك، ليس من الواضح من العمل السابق كيفية حاجة تاريخ حوار الحوار إلى مربع الحوار المرئي.في هذه الورقة، نحدد ما يعنيه سؤال مرئي يحتاج إلى سجل حوار ونصدر مجموعة فرعية من التخمين؟!الأسئلة التي تغير تاريخ حوارهم تماما ردودهم.نقترح تمثيل رواية مفسدية تاريخ حوار حوار بصريا: المنطقة قيد المناقشة.وهو يقيد ميزات الصورة المكانية وفقا لتمثيل الدلالي للتاريخ المستوحى من مفهوم هيكل المعلومات حول السؤال قيد المناقشة. نحن نقيم الهندسة المعمارية على النماذج متعددة الوسائط الخاصة بمهام المهام ونموذج محول البصر lxmert.
Visual Dialog is assumed to require the dialog history to generate correct responses during a dialog. However, it is not clear from previous work how dialog history is needed for visual dialog. In this paper we define what it means for a visual question to require dialog history and we release a subset of the Guesswhat?! questions for which their dialog history completely changes their responses. We propose a novel interpretable representation that visually grounds dialog history: the Region under Discussion. It constrains the image's spatial features according to a semantic representation of the history inspired by the information structure notion of Question under Discussion.We evaluate the architecture on task-specific multimodal models and the visual transformer model LXMERT.
المراجع المستخدمة
https://aclanthology.org/
الحوار المرئي صعبا لأنه يحتاج إلى الإجابة على سلسلة من الأسئلة المتماسكة بناء على فهم البيئة المرئية. كيفية الأرض الكائنات المرئية ذات الصلة هي واحدة من المشاكل الرئيسية. تستخدم الدراسات السابقة السؤال والتاريخ للحضور في الصورة وتحقيق أداء مرضي، في ح
الحوار المرئي هو مهمة الإجابة على سلسلة من الأسئلة التي تأسست في صورة باستخدام سجل الحوار السابق كسياق. في هذه الورقة، ندرس كيفية معالجة تحديين أساسيين لهذه المهمة: (1) التفكير في الهياكل الدلالية الأساسية بين جولات الحوار و (2) تحديد العديد من الإجا
المحادثات غالبا ما تكون في المختبرات والشركات.ملخص أمر حيوي لفهم محتوى مناقشة للأشخاص الذين لم يحضروا المناقشة.إذا تم توضيح الملخص كهيكل وسيطة، فمن المفيد فهم أساسيات المناقشة على الفور.هدفنا في هذه الورقة هو التنبؤ بهيكل رابط بين العقد التي تتكون من
يمكن أن تستفيد مهام التعلم المختلفة من الوصول إلى معلومات خارجية عن طرائق مختلفة، مثل النص والصور.ركز العمل الحديث على تعلم الهندسة مع ذكريات كبيرة قادرة على تخزين هذه المعرفة.نقترحنا زيادة شبكات عصبية محول التوليد مع وحدات جلب المعلومات المستندة إلى
أجري تقييم تسعة طرز وراثية مدخلة من الفول العادي vicia faba هي:
(flip84-59fb, AGUADOLCE LB 1266 SML,، FLIP84-14FB، GIZE. 461, REINA BLANCA، البلدي، القبرصي، الاسباني). خلال موسمي الزراعة (2010-2011 و 2011-2012 (في مزرعة البصة قرب مدينة اللاذقية. لاع