نحن نتعامل مع مشكلة الملاحة حيث يتبع الوكيل تعليمات اللغة الطبيعية مع مراقبة البيئة.التركيز على فهم اللغة، نظهر أهمية دلالات المكانية في تعليمات الملاحة الأساسية في التصورات المرئية.نقترح وكيل عصبي يستخدم عناصر التكوينات المكانية والتحقيق في نفوذهم على قدرة مفطنة عامل الملاحة.علاوة على ذلك، نحن ننمذ نظام التنفيذ المتسلسل ومحاذاة الكائنات المرئية مع تكوينات مكانية في التعليمات.يحسن وكيلنا العصبي خطوط أساس قوية على البيئات المشاهدة ويظهر أداء تنافسي في البيئات غير المرئية.بالإضافة إلى ذلك، توضح النتائج التجريبية أن نمذجة صريحة للعناصر الدلالية المكانية في التعليمات يمكن أن تحسن من التفكير الأساسي والمكاني للنموذج.
We deal with the navigation problem where the agent follows natural language instructions while observing the environment. Focusing on language understanding, we show the importance of spatial semantics in grounding navigation instructions into visual perceptions. We propose a neural agent that uses the elements of spatial configurations and investigate their influence on the navigation agent's reasoning ability. Moreover, we model the sequential execution order and align visual objects with spatial configurations in the instruction. Our neural agent improves strong baselines on the seen environments and shows competitive performance on the unseen environments. Additionally, the experimental results demonstrate that explicit modeling of spatial semantic elements in the instructions can improve the grounding and spatial reasoning of the model.
المراجع المستخدمة
https://aclanthology.org/
إن حجم البيانات المالية الهائلة يجعل من الصعب الوصول إلى البشر ويحللون قطاع الأعمال. تواجه المنطق العددي القوي بالمثل تحديات فريدة من نوعها في هذا المجال. في هذا العمل، نركز على الإجابة على الأسئلة العميقة على البيانات المالية، تهدف إلى أتمتة تحليل ل
التفكير الشديد هو وضع المنطق حيث يمكن إقليم الاستنتاجات من خلال مراعاة الأدلة الجديدة.أدب الأدب العلوم المعرفي الموجود بشأن التفكير الشديد يشير إلى أن الشخص يشكل نموذجا عقليا "سيناريو المشكلة قبل الإجابة على الأسئلة.يسأل هدفنا البحثي عما إذا كانت الن
في هذه الورقة، نحقق في مشكلة تعميم المجال (DG) للحصول على تحديد صياغة الإشراف (PI).نلاحظ أن أداء نماذج PI الحالية يتدهور بشكل كبير عند اختباره في مجال خارج التوزيع (OOD).نحن تخمين أنه ناجم عن التعلم الاختصار، أي هذه النماذج تميل إلى الاستفادة من الكل
يتم تعريف حدود قابلية تطبيق نماذج الرؤية واللغة من خلال تغطية بياناتها التدريبية. تتطلب المهام مثل الرؤية الإجابة على الأسئلة (VQA) في كثير من الأحيان معلومات المنطقية والواقعية تتجاوز ما يمكن تعلمه من مجموعات البيانات الخاصة بمهام المهام. تحقق هذه ا
منطق العموم الزمني هي مهمة صعبة لأنها تتطلب المعرفة الزمنية عادة غير صريحة في النص.في هذا العمل، نقترح نموذج فرقة لسبب المنظمات الزمنية.يعتمد نموذجنا على تمثيلات سياقية مدربة مسبقا من نماذج اللغة القائمة على المحولات (IE، Bert)، وعلى مجموعة متنوعة من