يتطلب تنفيذ تعليمات اللغة الطبيعية في مجال أساسي جسديا نموذجا يفهم كل من المفاهيم المكانية مثل اليسار من "" وما فوق ""، واللغة التركيبية المستخدمة لتحديد المعالم وتعيين التعليمات المتعلقة بها. في هذه الورقة، ندرس فهم التعليمات في المجال العالمي كتل. بالنظر إلى ترتيب أولي من الكتل وتعليم اللغة الطبيعية، يقوم النظام بتنفيذ التعليمات عن طريق التلاعب بالكتل المحددة. تتألف التعليمات التركيبية للغاية من مكونات ذرية وفهم هذه المكونات خطوة ضرورية لتنفيذ التعليمات. نظرا لأنه أثناء وجود تدريب نهاية إلى نهائي (يشرف عليه موقع الكتلة الصحيحة فقط) فشل في معالجة تحديات هذه المهمة ويعمل بشكل سيء على التعليمات التي تنطوي على مكون ذرية واحدة، يمكن استخدام الإشارات المساعدة الخالية من المعرفة لتحسين الأداء بشكل كبير من خلال توفير الإشراف على مكونات التعليمات. على وجه التحديد، نوفر إشارات تهدف إلى مساعدة النموذج تدريجيا على فهم مكونات التعليمات التركيبية، وكذلك تلك التي تساعدها على فهم المفاهيم المكانية بشكل أفضل، وإظهار فائدةها للمهمة الشاملة لمجموعات البيانات واثنين من نماذج الفن (SOTA)، خاصة عندما تكون بيانات التدريب محدودة --- وهي المعتادة في هذه المهام.
Executing natural language instructions in a physically grounded domain requires a model that understands both spatial concepts such as left of'' and above'', and the compositional language used to identify landmarks and articulate instructions relative to them. In this paper, we study instruction understanding in the blocks world domain. Given an initial arrangement of blocks and a natural language instruction, the system executes the instruction by manipulating selected blocks. The highly compositional instructions are composed of atomic components and understanding these components is a necessary step to executing the instruction. We show that while end-to-end training (supervised only by the correct block location) fails to address the challenges of this task and performs poorly on instructions involving a single atomic component, knowledge-free auxiliary signals can be used to significantly improve performance by providing supervision for the instruction's components. Specifically, we generate signals that aim at helping the model gradually understand components of the compositional instructions, as well as those that help it better understand spatial concepts, and show their benefit to the overall task for two datasets and two state-of-the-art (SOTA) models, especially when the training data is limited---which is usual in such tasks.
References used
https://aclanthology.org/
Standard architectures used in instruction following often struggle on novel compositions of subgoals (e.g. navigating to landmarks or picking up objects) observed during training. We propose a modular architecture for following natural language inst
Understanding and executing natural language instructions in a grounded domain is one of the hallmarks of artificial intelligence. In this paper, we focus on instruction understanding in the blocks world domain and investigate the language understand
Sign language translation (SLT) is often decomposed into video-to-gloss recognition and gloss to-text translation, where a gloss is a sequence of transcribed spoken-language words in the order in which they are signed. We focus here on gloss-to-text
Coupled with the availability of large scale datasets, deep learning architectures have enabled rapid progress on the Question Answering task. However, most of those datasets are in English, and the performances of state-of-the-art multilingual model
In this paper we explore a very simple neural approach to mapping orthography to phonetic transcription in a low-resource context. The basic idea is to start from a baseline system and focus all efforts on data augmentation. We will see that some techniques work, but others do not.