في العقد المقبل، سنرى حاجة كبيرة لنماذج NLP للإعدادات المحددة التي ينبغي أن تؤخذ فيها تنوع المواقف وأيطراض مختلفة بما في ذلك حركات العين في الاعتبار من أجل فهم نية المستخدم.ومع ذلك، لا يمكن التعامل مع فهم اللغة في الإعدادات الموجودة بمعزل عن غيرها، حيث توجد إشارات متعددة الوسائط المختلفة بطبيعتها أجزاء حاضرة وأساسية من المواقف.في هذا الاقتراح البحثي، نهدف إلى تحديد تأثير كل طريقة في التفاعل مع العديد من التعقيدات المرجانية.نقترح ترميز تعقيد المراجع للإعدادات المحددة في المدينين أثناء التدريب المسبق لتوجيه النموذج الضمني إلى أكثر الانحرافات الخاصة بالوضع المعقولا.نحن نلخص تحديات استخراج النية واقتراح نهج منهجي للتحقيق في تكيف ميزة خاصة بالحالة لتحسين رسم الخرائط Crossmodal ومعنى الاسترداد من إعدادات الاتصال الصاخب.
In the next decade, we will see a considerable need for NLP models for situated settings where diversity of situations and also different modalities including eye-movements should be taken into account in order to grasp the intention of the user. However, language comprehension in situated settings can not be handled in isolation, where different multimodal cues are inherently present and essential parts of the situations. In this research proposal, we aim to quantify the influence of each modality in interaction with various referential complexities. We propose to encode the referential complexity of the situated settings in the embeddings during pre-training to implicitly guide the model to the most plausible situation-specific deviations. We summarize the challenges of intention extraction and propose a methodological approach to investigate a situation-specific feature adaptation to improve crossmodal mapping and meaning recovery from noisy communication settings.
المراجع المستخدمة
https://aclanthology.org/
اختارت الأبحاث متعددة الوسائط بشكل كبير في مساحة السؤال الرد على المهمة التي يتم تمديدها إلى السؤال المرئي الرد على الرسوم البيانية، والرسوم البيانية الإجابة عليها وكذلك مسألة مساهمة مدخل متعددة الوسائط.ومع ذلك، فإن كل هذه الاستكشافات تنتج إخراج نصي
الترجمة الآلية العصبية متعددة الوسائط (MNMT) هي مهمة مثيرة للاهتمام في معالجة اللغة الطبيعية (NLP) حيث نستخدم طرائق مرئية إلى جانب جملة مصدر لمساعدة المصدر لعملية الترجمة المستهدفة.في الآونة الأخيرة، كان هناك الكثير من الأعمال في أطر MNMT لتعزيز أداء
تشمل اللغة البشرية أكثر من مجرد نص؛كما أنه ينقل العواطف من خلال النغمة والإيماءات.نقدم دراسة حالة لثلاث هندسة بسيطة وفعالة قائمة على المحولات لتنبؤ المعنويات والعاطفة في البيانات متعددة الوسائط.يقوم نموذج الانصهار المتأخر بدمج ميزات Unimodal لإنشاء ت
نقدم نظام TMEKU الخاص بنا المقدم إلى مهمة الترجمة متعددة الوسائط الإنجليزية اليابانية ل WAT 2021. شاركنا في مهمة Flickr30Kent-JP ومهمة MSCOCO MSCOCO MSCOCON تحت الحالة المقيدة باستخدام مجموعات البيانات المقدمة رسميا.توظف نظامنا المقترح محاذاة ناعمة م
وقد ثبت أن التعرف على الكيان المسمى (NER) قد يستفيد من دمج المعلومات المهيكلة لمسافات طويلة التي تم التقاطها بواسطة أشجار التبعية. نعتقد أن هذا هو أن كلا النوعين من الميزات - المعلومات السياقية التي تم التقاطها من خلال التسلسلات الخطية والمعلومات الم