الحوار متعدد الوسائط مفتوح


الملخص بالعربية

لقد أثبت العمل الحديث في وكلاء المحادثة المفتوحة على أن التحسينات الكبيرة في الإنسانية وتفضيل المستخدم يمكن تحقيقها عبر التحجيم الضخم في كل من بيانات التدريب المسبق وحجم النموذج (Adiwardana et al.، 2020؛ الأسطوانة وآخرون، 2020). ومع ذلك، إذا كنا نريد بناء عملاء مع قدرات تشبه الإنسان، يجب علينا توسيع نطاق التعامل مع النص فقط. موضوع مهم للغاية هو القدرة على رؤية الصور والتواصل حول ما ينظر إليه. بهدف الحصول على البشر للانخراط في حوار متعدد الوسائط، نحقق في مجمع المكونات من وكلاء حوار الوكالة المفتوحة للحكومة من بين الفنون من نماذج الرؤية الحديثة. نحن ندرس دمج مخططات مختلفة من صور الصور واستراتيجيات التدريب المسبق على نطاق واسع على المجال وضبط النطاق، وتظهر أن طرازنا الأفضل الناتج يفوق النماذج الحالية القوية في حوار متعدد الوسائط أثناء التنفيذ في وقت واحد وكذلك سلفها (النص فقط) (الأسطوانة وآخرون، 2020) في محادثة قائمة على النص. إننا كذلك تحقيق وإدماج مكونات السلامة في نموذجنا النهائي، وإظهار أن هذه الجهود لا تقلل من الأداء النموذجي فيما يتعلق بتفضيل الإنسان.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث