لقد أثبت العمل الحديث في وكلاء المحادثة المفتوحة على أن التحسينات الكبيرة في الإنسانية وتفضيل المستخدم يمكن تحقيقها عبر التحجيم الضخم في كل من بيانات التدريب المسبق وحجم النموذج (Adiwardana et al.، 2020؛ الأسطوانة وآخرون، 2020). ومع ذلك، إذا كنا نريد بناء عملاء مع قدرات تشبه الإنسان، يجب علينا توسيع نطاق التعامل مع النص فقط. موضوع مهم للغاية هو القدرة على رؤية الصور والتواصل حول ما ينظر إليه. بهدف الحصول على البشر للانخراط في حوار متعدد الوسائط، نحقق في مجمع المكونات من وكلاء حوار الوكالة المفتوحة للحكومة من بين الفنون من نماذج الرؤية الحديثة. نحن ندرس دمج مخططات مختلفة من صور الصور واستراتيجيات التدريب المسبق على نطاق واسع على المجال وضبط النطاق، وتظهر أن طرازنا الأفضل الناتج يفوق النماذج الحالية القوية في حوار متعدد الوسائط أثناء التنفيذ في وقت واحد وكذلك سلفها (النص فقط) (الأسطوانة وآخرون، 2020) في محادثة قائمة على النص. إننا كذلك تحقيق وإدماج مكونات السلامة في نموذجنا النهائي، وإظهار أن هذه الجهود لا تقلل من الأداء النموذجي فيما يتعلق بتفضيل الإنسان.
Recent work in open-domain conversational agents has demonstrated that significant improvements in humanness and user preference can be achieved via massive scaling in both pre-training data and model size (Adiwardana et al., 2020; Roller et al., 2020). However, if we want to build agents with human-like abilities, we must expand beyond handling just text. A particularly important topic is the ability to see images and communicate about what is perceived. With the goal of getting humans to engage in multi-modal dialogue, we investigate combining components from state-of-the-art open-domain dialogue agents with those from state-of-the-art vision models. We study incorporating different image fusion schemes and domain-adaptive pre-training and fine-tuning strategies, and show that our best resulting model outperforms strong existing models in multi-modal dialogue while simultaneously performing as well as its predecessor (text-only) BlenderBot (Roller et al., 2020) in text-based conversation. We additionally investigate and incorporate safety components in our final model, and show that such efforts do not diminish model performance with respect to human preference.
المراجع المستخدمة
https://aclanthology.org/
إن دمج مصادر المعرفة الخارجية بفعالية في المحادثات هي مشكلة طويلة الأمد في أبحاث الحوار مفتوح المجال. إن الأدبيات الموجودة على اختيار المعرفة المفتوحة للمجال محدود ويقتصر بعض الافتراضات الهشة على مصادر المعرفة لتبسيط المهمة الشاملة، مثل وجود عقوبة مع
على الرغم من تحقيق أداء ملحوظ، عادة ما تستخدم أعمال المعرفة المعززة بالمعرفة عادة قاعدة معرفة متجانسة واحدة متجانسة من تغطية المعرفة المحدودة. وبالتالي، فإنهم غالبا ما ينضون في الأساليب التقليدية لأنه لا يمكن ربط جميع الحوارات بإدخالات المعرفة. تقترح
تزايد نماذج اللغة المدربة مسبقا للمحولات أداء أنظمة حوار المجال المفتوح. Works Prefer Works Simply القائمة على تحويلات قائمة مدربة مسبقا لتوليد النصوص ذات السمات المرغوبة في نهجين عامين: (1) الأساليب القائمة على التدرج: تحديث جميع التمثيلات الكامنة ل
أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال
البحث في أنظمة الحوار مفتوح المجال التي تسمح بمواضيع مجانية صعبة في مجال معالجة اللغات الطبيعية (NLP). تم تحسين أداء نظام الحوار مؤخرا من خلال الطريقة التي تستخدم المعرفة المتعلقة بالحوار؛ ومع ذلك، فإن أنظمة الحوار غير الإنجليزية تعاني من إعادة إنتاج