يتطلب تنفيذ تعليمات اللغة الطبيعية في مجال أساسي جسديا نموذجا يفهم كل من المفاهيم المكانية مثل اليسار من "" وما فوق ""، واللغة التركيبية المستخدمة لتحديد المعالم وتعيين التعليمات المتعلقة بها. في هذه الورقة، ندرس فهم التعليمات في المجال العالمي كتل. بالنظر إلى ترتيب أولي من الكتل وتعليم اللغة الطبيعية، يقوم النظام بتنفيذ التعليمات عن طريق التلاعب بالكتل المحددة. تتألف التعليمات التركيبية للغاية من مكونات ذرية وفهم هذه المكونات خطوة ضرورية لتنفيذ التعليمات. نظرا لأنه أثناء وجود تدريب نهاية إلى نهائي (يشرف عليه موقع الكتلة الصحيحة فقط) فشل في معالجة تحديات هذه المهمة ويعمل بشكل سيء على التعليمات التي تنطوي على مكون ذرية واحدة، يمكن استخدام الإشارات المساعدة الخالية من المعرفة لتحسين الأداء بشكل كبير من خلال توفير الإشراف على مكونات التعليمات. على وجه التحديد، نوفر إشارات تهدف إلى مساعدة النموذج تدريجيا على فهم مكونات التعليمات التركيبية، وكذلك تلك التي تساعدها على فهم المفاهيم المكانية بشكل أفضل، وإظهار فائدةها للمهمة الشاملة لمجموعات البيانات واثنين من نماذج الفن (SOTA)، خاصة عندما تكون بيانات التدريب محدودة --- وهي المعتادة في هذه المهام.
Executing natural language instructions in a physically grounded domain requires a model that understands both spatial concepts such as left of'' and above'', and the compositional language used to identify landmarks and articulate instructions relative to them. In this paper, we study instruction understanding in the blocks world domain. Given an initial arrangement of blocks and a natural language instruction, the system executes the instruction by manipulating selected blocks. The highly compositional instructions are composed of atomic components and understanding these components is a necessary step to executing the instruction. We show that while end-to-end training (supervised only by the correct block location) fails to address the challenges of this task and performs poorly on instructions involving a single atomic component, knowledge-free auxiliary signals can be used to significantly improve performance by providing supervision for the instruction's components. Specifically, we generate signals that aim at helping the model gradually understand components of the compositional instructions, as well as those that help it better understand spatial concepts, and show their benefit to the overall task for two datasets and two state-of-the-art (SOTA) models, especially when the training data is limited---which is usual in such tasks.
المراجع المستخدمة
https://aclanthology.org/
البنية القياسية المستخدمة في التعليمات التالية غالبا ما تكافح على تركيبات رواية من الفئة (E.G. التنقل إلى المعالم أو التقاط الأشياء) لاحظت أثناء التدريب.نقترح هندسة معيارية لاتباع تعليمات اللغة الطبيعية التي تصف تسلسلات فرعية متنوعة.في نهجنا، فروع ال
إن فهم وتعليمات اللغة الطبيعية في مجال أساسي هي واحدة من السمات المميزة للذكاء الاصطناعي. في هذه الورقة، نركز على فهم التعليمات في المجال العالمي كتل والتحقيق في قدرات فهم قدرات نظامين أفضل أداء للمهمة. نحن نهدف إلى فهم ما إذا كان أداء اختبار هذه الن
غالبا ما يتحلل ترجمة لغة الإشارة (SLT) في التعرف على الفيديو إلى اللمعان والترجمة النصية إلى النص، حيث يكون اللمعان سلسلة من الكلمات اللغوية الموضحة باللغة المنطوقة بالترتيب الذي يتم فيه توقيعه.نحن نركز هنا على الترجمة اللامع إلى النص، والتي نعلمها ك
إلى جانب توفر مجموعات بيانات واسعة النطاق، مكنت هياكل التعلم العميق التقدم السريع في مهمة الإجابة على السؤال.ومع ذلك، فإن معظم مجموعات البيانات هذه باللغة الإنجليزية، وأدائيات النماذج متعددة اللغات الحديثة أقل بكثير عند تقييمها على البيانات غير الإنج
في هذه الورقة، نستكشف مقاربة عصبية بسيطة للغاية لتعيين تقويم الإملاءات إلى النسخ الصوتي في سياق منخفض الموارد.الفكرة الأساسية هي البدء من نظام أساسي وتركيز جميع الجهود بشأن تكبير البيانات.سوف نرى أن بعض التقنيات تعمل، ولكن البعض الآخر لا.