في مهمة التنقل في الرؤية واللغة (VLN)، يقوم وكيل مجسد على بيئة ثلاثية الأبعاد، بعد تعليمات اللغة الطبيعية.التحدي في هذه المهمة هو كيفية التعامل مع سيناريوهات المسار حيث يوضح الوكيل من المسار المرجعي.يشرف العمل السابق على الوكيل بالإجراءات القائمة على أقصر مسار من موقع الوكيل إلى الهدف، ولكن هذا الإشراف الموجه نحو الأهداف غالبا ما لا يتماشى مع التعليمات.علاوة على ذلك، فإن مقاييس التقييم التي تستخدمها العمل المسبق لا تقيس مقدار التعليمات اللغوية التي يستطيع الوكيل أن يتبعها.في هذا العمل، نقترح مخطط إشراف بسيط وفعال من اللغات، ومقياس جديد يقيس عدد التعليمات الفرعية التي أكملها الوكيل أثناء الملاحة.
In the Vision-and-Language Navigation (VLN) task an embodied agent navigates a 3D environment, following natural language instructions. A challenge in this task is how to handle off the path' scenarios where an agent veers from a reference path. Prior work supervises the agent with actions based on the shortest path from the agent's location to the goal, but such goal-oriented supervision is often not in alignment with the instruction. Furthermore, the evaluation metrics employed by prior work do not measure how much of a language instruction the agent is able to follow. In this work, we propose a simple and effective language-aligned supervision scheme, and a new metric that measures the number of sub-instructions the agent has completed during navigation.
المراجع المستخدمة
https://aclanthology.org/
النمذجة اللغوية المعقدة (MLM) هي واحدة من المهام الفرعية الرئيسية في محاكاة لغة الرؤية. في الإعداد عبر الوسائط، يتم ملثمين الرموز في الجملة بشكل عشوائي، والنموذج يتوقع أن تكون الرموز الممكنة التي أعطتها الصورة والنص. في هذه الورقة، نلاحظ العديد من عي
هناك حدود مثيرة في فهم اللغة الطبيعية (NLU) وتوليد (NLG) يدعو (NLG) نماذج لغة (Vision-and) التي يمكن أن تصل إلى إمكانية الوصول إلى مستودعات المعرفة المنظم الخارجية بكفاءة. ومع ذلك، فإن العديد من قواعد المعرفة الموجودة تغطي فقط المجالات المحدودة، أو ت
يمكن لمساعدات منظمة العفو الدولية الآن تنفيذ مهام للمستخدمين بالتفاعل بشكل مباشر مع موقع UIS بشكل مباشر.لا يمكن أن تتكيف تقنيات التحليل الدلالي الحالية والفتحية بمرونة مع العديد من مواقع الويب المختلفة دون إعادة تدريبها باستمرار.نقترح Flin، وهي واجهة
تهدف العبارة الأساسية إلى تعيين العبارات النصية إلى مناطق الصور المرتبطة بها، والتي يمكن أن تكون شرطا أساسيا لسبب متعدد الوسائط ويمكن أن تستفيد المهام التي تتطلب تحديد الكائنات القائمة على اللغة. مع تحقيق نماذج للرؤية واللغة المدربة مسبقا أداء مثير ل
نهج فهم اللغة الحديثة في الرؤية اعتماد محول متعدد الوسائط قبل التدريب المسبق و Finetuning النموذج.يتعلم العمل المسبق تمثيلات الرموز النصية والسمات المرئية مع آليات الانهيارات المتقاطعة ويلتقط المحاذاة على أساس إشارات غير مباشرة.في هذا العمل، نقترح تع