هناك اهتمام متزايد بالمساعدين الظاهريين مع قدرات متعددة الوسائط، على سبيل المثال، استنتاج سياق محادثة من خلال فهم المشهد. تعالج مجموعة بيانات محادثات متعددة الوسائط المتعددة (SIMMC) التي تم إصدارها مؤخرا هذا الاتجاه من خلال تمكين البحث عن إنشاء مساعدين افتراضي، قادرين على مراعاة المشهد الذي يراه المستخدم عند التحدث مع المستخدم ويتفاعل أيضا مع العناصر الموجودة في المشهد. DataSet SIMMC هو رواية في أنه يحتوي على حوار مساعد للمستخدم المشروح بالكامل، ومساعدات موجهة نحو المهام حيث يراقب المستخدم ومشاركة مساعد نفس العناصر المرئية والأخير إجراء إجراءات لتحديث المشهد. أدفع تحدي SIMMC، الذي عقد كجزء من تحدي تكنولوجيا نظام الحوار ثمين (DSTC9)، تطوير النماذج المختلفة التي تضع معا مجموعة جديدة من الفن في مجموعة بيانات SIMMC. في هذا العمل، قارننا وتحليل هذه النماذج لتحديد ما عملت؟ "، والفجوات المتبقية؛ Whatnext؟ '. يوضح تحليلنا أنه على الرغم من أن نماذج اللغة المحددة مسبقا تتكيف مع هذه المجموعة تظهر وعد كبير، فهناك مؤشرات على أن السياق المتعدد غير المستخدمة بالكامل، وهناك حاجة إلى تكامل قاعدة معرفة أفضل وقابل للتطوير. نأمل أن يوفر هذا التحليل الأول من نوع نماذج SIMMC رؤى وفرصا مفيدا لمزيد من البحث في وكلاء المحادثة متعددة الوسائط
There is a growing interest in virtual assistants with multimodal capabilities, e.g., inferring the context of a conversation through scene understanding. The recently released situated and interactive multimodal conversations (SIMMC) dataset addresses this trend by enabling research to create virtual assistants, which are capable of taking into account the scene that user sees when conversing with the user and also interacting with items in the scene. The SIMMC dataset is novel in that it contains fully annotated user-assistant, task-orientated dialogs where the user and an assistant co-observe the same visual elements and the latter can take actions to update the scene. The SIMMC challenge, held as part of theNinth Dialog System Technology Challenge(DSTC9), propelled the development of various models which together set a new state-of-the-art on the SIMMC dataset. In this work, we compare and analyze these models to identifywhat worked?', and the remaining gaps;whatnext?'. Our analysis shows that even though pretrained language models adapted to this set-ting show great promise, there are indications that multimodal context isn't fully utilised, and there is a need for better and scalable knowledge base integration. We hope this first-of-its-kind analysis for SIMMC models provides useful insights and opportunities for further research in multimodal conversational agents
References used
https://aclanthology.org/
Human language encompasses more than just text; it also conveys emotions through tone and gestures. We present a case study of three simple and efficient Transformer-based architectures for predicting sentiment and emotion in multimodal data. The Lat
Despite the increasingly good quality of Machine Translation (MT) systems, MT outputs require corrections. Automatic Post-Editing (APE) models have been introduced to perform these corrections without human intervention. However, no system has been a
Multimodal research has picked up significantly in the space of question answering with the task being extended to visual question answering, charts question answering as well as multimodal input question answering. However, all these explorations pr
This paper studies zero-shot cross-lingual transfer of vision-language models. Specifically, we focus on multilingual text-to-video search and propose a Transformer-based model that learns contextual multilingual multimodal embeddings. Under a zero-s
Abstract Large-scale pretraining and task-specific fine- tuning is now the standard methodology for many tasks in computer vision and natural language processing. Recently, a multitude of methods have been proposed for pretraining vision and language