عندما يتواصل الوكلاء الذكيون بإنجاز الأهداف المشتركة، كيف تشكل هذه الأهداف لغة الوكلاء؟ندرس ديناميات التعلم في سياسات اللغة الكامنة (LTPs)، حيث يولد وكلاء المعلمون الأوصاف الفرعية باللغة الطبيعية ووكلاء المنفذين تعيين هذه الأوصاف إلى إجراءات منخفضة المستوى.يمكن LLP حل مشاكل تعليم التعزيز الطويلة في الأفق وتقديم نموذج غني لدراسة استخدام اللغة الموجهة نحو المهام.لكن العمل السابق قد وجد أن التدريب LLP عرضة للانجراف الدلالي (استخدام الرسائل بطرق غير متناسقة مع معاني اللغة الطبيعية الأصلية).هنا، نوضح نظري وتجريبيا أن التدريب المتعدد هو مضاد فعال لهذه المشكلة: نثبت أن التدريب المتعدد يتزيل الانجراف الدلالي في عائلة مدرسية جيدا من ألعاب الإشارات، وإظهار أن التدريب المتعدد في LT LT LTWural في لعبة استراتيجية معقدة تقللالانجراف وبين تحسين كفاءة عينة.
When intelligent agents communicate to accomplish shared goals, how do these goals shape the agents' language? We study the dynamics of learning in latent language policies (LLPs), in which instructor agents generate natural-language subgoal descriptions and executor agents map these descriptions to low-level actions. LLPs can solve challenging long-horizon reinforcement learning problems and provide a rich model for studying task-oriented language use. But previous work has found that LLP training is prone to semantic drift (use of messages in ways inconsistent with their original natural language meanings). Here, we demonstrate theoretically and empirically that multitask training is an effective counter to this problem: we prove that multitask training eliminates semantic drift in a well-studied family of signaling games, and show that multitask training of neural LLPs in a complex strategy game reduces drift and while improving sample efficiency.
المراجع المستخدمة
https://aclanthology.org/
النموذج المهيمن للتحلل الدلالي في السنوات الأخيرة هو صياغة تحليل كمركز تسلسل إلى تسلسل، وتوليد تنبؤات مع فك تراجع التسلسل التلقائي.في هذا العمل، نستكشف نموذجا بديلا.نقوم بصياغة تحليل دلالي كهامة تحليل التبعية، وتطبيق تقنيات فك التشفير المستندة إلى ال
أداء النماذج العصبية للتعرف على الكيان المسمى يتحلل مع مرور الوقت، أصبحت قديمة.هذا التدهور يرجع إلى الانجراف الزمني، والتغيير في الخصائص الإحصائية المتغيرات المستهدفة لدينا مع مرور الوقت.هذه المسألة مشكلة خاصة لبيانات وسائل التواصل الاجتماعي، حيث تتغ
تقدم هذه الورقة توقعات إطارات دلالية، وهي مهمة تتوقع الإطارات الدلالية التي ستحدث في الجمل العشرة أو 100 أو حتى 1000 شخص في قصة تشغيل. ركز العمل السابق على التنبؤ بالمستقبل الفوري للقصة، مثل واحد إلى بعض الأحكام المقبلة. ومع ذلك، عندما يكتب الروائيون
في دلالات معجمية، يتم علاج تجزئة الجملة الكاملة ووضع القطاع من الظواهر المختلفة بشكل عام بشكل منفصل، على الرغم من الترابط.نحن نفترض أن مهمة الاعتراف الدلالية المعتمدة الموحدة هي وسيلة فعالة لتغليف الأساليب التوضيحية سابقا من التوضيحية، بما في ذلك الت
يمكن أن تكون كمية المعلومات المتاحة عبر الإنترنت ساحقة للمستخدمين من هضمها، خاصة عند التعامل مع تعليقات المستخدمين الآخرين عند اتخاذ قرار بشأن شراء منتج أو خدمة. في هذا السياق، تكون أنظمة تلخيص الرأي ذات قيمة كبيرة، واستخراج معلومات مهمة من النصوص وت