بالنظر إلى أهمية بناء أسئلة حوار مرئي جيد (VD)، يدرس العديد من الباحثين موضوعا بموجب إعداد لعبة تخمين صورة Q-Bot-A-Bot، حيث يحتاج السائل إلى رفع سلسلة من الأسئلة لجمع معلومات غير معلنة صورة. على الرغم من التقدم المحرز في التعلم الإشراف (SL) وتعزيز التعزيز (RL)، فإن القضايا لا تزال موجودة. أولا، لا توفر الأساليب السابقة إرشادات صريحة وفعالة للمسائل لتوليد أسئلة ذات صلة وبصراحية. ثانيا، يتم إعاقة تأثير RL بواسطة مكون غير كفء، أي خيال، الذي يصنع تنبؤات الصور بناء على الحوار التي تم إنشاؤها وتعيين المكافآت وفقا لذلك. لتعزيز مسائل VD: 1) نقترح اسئلة محسنة للكيان (REEQ) التي تولد أسئلة تحت إشراف الكيانات ذات الصلة وتعلم استراتيجية الاستجواب القائمة على الكيان من الحوار البشرية؛ 2) نقترح خيال معدني قوي ويتم تحسينه ل VD خاصة. تظهر النتائج التجريبية على مجموعة بيانات V1.0 Visdial أن نهجنا يحقق أداء حديثة على كل من مهمة تخمين الصورة وتنوع السؤال. تتحقق الدراسة البشرية مزيدا من أن نموذجنا يولد أسئلة أكثر متعلقة بصريا ومفيدة ومتماسكة.
Considering the importance of building a good Visual Dialog (VD) Questioner, many researchers study the topic under a Q-Bot-A-Bot image-guessing game setting, where the Questioner needs to raise a series of questions to collect information of an undisclosed image. Despite progress has been made in Supervised Learning (SL) and Reinforcement Learning (RL), issues still exist. Firstly, previous methods do not provide explicit and effective guidance for Questioner to generate visually related and informative questions. Secondly, the effect of RL is hampered by an incompetent component, i.e., the Guesser, who makes image predictions based on the generated dialogs and assigns rewards accordingly. To enhance VD Questioner: 1) we propose a Related entity enhanced Questioner (ReeQ) that generates questions under the guidance of related entities and learns entity-based questioning strategy from human dialogs; 2) we propose an Augmented Guesser that is strong and is optimized for VD especially. Experimental results on the VisDial v1.0 dataset show that our approach achieves state-of-the-art performance on both image-guessing task and question diversity. Human study further verifies that our model generates more visually related, informative and coherent questions.
المراجع المستخدمة
https://aclanthology.org/
الحوار المرئي صعبا لأنه يحتاج إلى الإجابة على سلسلة من الأسئلة المتماسكة بناء على فهم البيئة المرئية. كيفية الأرض الكائنات المرئية ذات الصلة هي واحدة من المشاكل الرئيسية. تستخدم الدراسات السابقة السؤال والتاريخ للحضور في الصورة وتحقيق أداء مرضي، في ح
الحوار المرئي هو مهمة الإجابة على سلسلة من الأسئلة التي تأسست في صورة باستخدام سجل الحوار السابق كسياق. في هذه الورقة، ندرس كيفية معالجة تحديين أساسيين لهذه المهمة: (1) التفكير في الهياكل الدلالية الأساسية بين جولات الحوار و (2) تحديد العديد من الإجا
تلخيص ScreenPlay هي مهمة استخراج مشاهد إعلامية من سيناريو.يحتوي ScensingPlay على أحداث نقطة الدوران (TP) التي تغير اتجاه القصة وبالتالي تحديد هيكل القصة بشكل حاسم.وفقا لذلك، يمكن تعريف هذه المهمة باعتبارها مهمة تحديد TP.نقترح استخدام معلومات الحوار،
يمكن أن تستفيد مهام التعلم المختلفة من الوصول إلى معلومات خارجية عن طرائق مختلفة، مثل النص والصور.ركز العمل الحديث على تعلم الهندسة مع ذكريات كبيرة قادرة على تخزين هذه المعرفة.نقترحنا زيادة شبكات عصبية محول التوليد مع وحدات جلب المعلومات المستندة إلى
لكل مهمة حوار موجهة نحو تحقيق الأهداف ذات أهمية، يجب جمع كميات كبيرة من البيانات للحصول على التعلم المنتهي للنظام الحوار العصبي.جمع هذه البيانات هي عملية مكلفة وتستغرق وقتا طويلا.بدلا من ذلك، نوضح أنه يمكننا استخدام كمية صغيرة فقط من البيانات، والتي