عندما يتواصل الوكلاء الذكيون بإنجاز الأهداف المشتركة، كيف تشكل هذه الأهداف لغة الوكلاء؟ندرس ديناميات التعلم في سياسات اللغة الكامنة (LTPs)، حيث يولد وكلاء المعلمون الأوصاف الفرعية باللغة الطبيعية ووكلاء المنفذين تعيين هذه الأوصاف إلى إجراءات منخفضة المستوى.يمكن LLP حل مشاكل تعليم التعزيز الطويلة في الأفق وتقديم نموذج غني لدراسة استخدام اللغة الموجهة نحو المهام.لكن العمل السابق قد وجد أن التدريب LLP عرضة للانجراف الدلالي (استخدام الرسائل بطرق غير متناسقة مع معاني اللغة الطبيعية الأصلية).هنا، نوضح نظري وتجريبيا أن التدريب المتعدد هو مضاد فعال لهذه المشكلة: نثبت أن التدريب المتعدد يتزيل الانجراف الدلالي في عائلة مدرسية جيدا من ألعاب الإشارات، وإظهار أن التدريب المتعدد في LT LT LTWural في لعبة استراتيجية معقدة تقللالانجراف وبين تحسين كفاءة عينة.
When intelligent agents communicate to accomplish shared goals, how do these goals shape the agents' language? We study the dynamics of learning in latent language policies (LLPs), in which instructor agents generate natural-language subgoal descriptions and executor agents map these descriptions to low-level actions. LLPs can solve challenging long-horizon reinforcement learning problems and provide a rich model for studying task-oriented language use. But previous work has found that LLP training is prone to semantic drift (use of messages in ways inconsistent with their original natural language meanings). Here, we demonstrate theoretically and empirically that multitask training is an effective counter to this problem: we prove that multitask training eliminates semantic drift in a well-studied family of signaling games, and show that multitask training of neural LLPs in a complex strategy game reduces drift and while improving sample efficiency.
References used
https://aclanthology.org/
The dominant paradigm for semantic parsing in recent years is to formulate parsing as a sequence-to-sequence task, generating predictions with auto-regressive sequence decoders. In this work, we explore an alternative paradigm. We formulate semantic
Performance of neural models for named entity recognition degrades over time, becoming stale. This degradation is due to temporal drift, the change in our target variables' statistical properties over time. This issue is especially problematic for so
This paper introduces Semantic Frame Forecast, a task that predicts the semantic frames that will occur in the next 10, 100, or even 1,000 sentences in a running story. Prior work focused on predicting the immediate future of a story, such as one to
In lexical semantics, full-sentence segmentation and segment labeling of various phenomena are generally treated separately, despite their interdependence. We hypothesize that a unified lexical semantic recognition task is an effective way to encapsu
The amount of information available online can be overwhelming for users to digest, specially when dealing with other users' comments when making a decision about buying a product or service. In this context, opinion summarization systems are of grea