تحليل النماذج الحديثة للمحادثات متعددة الوسائط التفاعلية (SIMMC)


الملخص بالعربية

هناك اهتمام متزايد بالمساعدين الظاهريين مع قدرات متعددة الوسائط، على سبيل المثال، استنتاج سياق محادثة من خلال فهم المشهد. تعالج مجموعة بيانات محادثات متعددة الوسائط المتعددة (SIMMC) التي تم إصدارها مؤخرا هذا الاتجاه من خلال تمكين البحث عن إنشاء مساعدين افتراضي، قادرين على مراعاة المشهد الذي يراه المستخدم عند التحدث مع المستخدم ويتفاعل أيضا مع العناصر الموجودة في المشهد. DataSet SIMMC هو رواية في أنه يحتوي على حوار مساعد للمستخدم المشروح بالكامل، ومساعدات موجهة نحو المهام حيث يراقب المستخدم ومشاركة مساعد نفس العناصر المرئية والأخير إجراء إجراءات لتحديث المشهد. أدفع تحدي SIMMC، الذي عقد كجزء من تحدي تكنولوجيا نظام الحوار ثمين (DSTC9)، تطوير النماذج المختلفة التي تضع معا مجموعة جديدة من الفن في مجموعة بيانات SIMMC. في هذا العمل، قارننا وتحليل هذه النماذج لتحديد ما عملت؟ "، والفجوات المتبقية؛ Whatnext؟ '. يوضح تحليلنا أنه على الرغم من أن نماذج اللغة المحددة مسبقا تتكيف مع هذه المجموعة تظهر وعد كبير، فهناك مؤشرات على أن السياق المتعدد غير المستخدمة بالكامل، وهناك حاجة إلى تكامل قاعدة معرفة أفضل وقابل للتطوير. نأمل أن يوفر هذا التحليل الأول من نوع نماذج SIMMC رؤى وفرصا مفيدا لمزيد من البحث في وكلاء المحادثة متعددة الوسائط

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث