نسعى إلى إنشاء وكلاء يتصرفون والتواصل مع الوكلاء الآخرين في السعي لتحقيق هدف.تحقيقا لهذه الغاية، نقوم بتمديد الضوء (Urbanek et al. 2019) --- لعبة نصية خيال من الحشد على نطاق واسع - مع مجموعة بيانات من المهام.هذه تحتوي على دوافع لغوية طبيعية مقترنة بأهداف في اللعبة والمظاهرات البشرية؛قد يتطلب إكمال السعي حوار أو إجراءات (أو كليهما).نقدم نظام لتعليم التعزيز (1) يشتمل على التدريب المستندة إلى النمذجة على النمذجة القائمة على النمذجة على النمذجة على نطاق واسع ومقرها مسبقا لإشراف الوكيل مع البثور ذات الصلة؛و (2) يرفع مساحة عمل عوامل من أوامر العمل والحوار، موازنة بين الاثنين.نقوم بإجراء تقييمات طلقة صفرية باستخدام مظاهرات الخبراء البشرية المحتفظ بها، والتي تبين أن عملائنا قادرون على التصرف باستمرار والتحدث بشكل طبيعي فيما يتعلق بدوافعهم.
We seek to create agents that both act and communicate with other agents in pursuit of a goal. Towards this end, we extend LIGHT (Urbanek et al. 2019)---a large-scale crowd-sourced fantasy text-game---with a dataset of quests. These contain natural language motivations paired with in-game goals and human demonstrations; completing a quest might require dialogue or actions (or both). We introduce a reinforcement learning system that (1) incorporates large-scale language modeling-based and commonsense reasoning-based pre-training to imbue the agent with relevant priors; and (2) leverages a factorized action space of action commands and dialogue, balancing between the two. We conduct zero-shot evaluations using held-out human expert demonstrations, showing that our agents are able to act consistently and talk naturally with respect to their motivations.
المراجع المستخدمة
https://aclanthology.org/
الألعاب القائمة على النص محاكاة العالمين والتفاعل مع اللاعبين باستخدام اللغة الطبيعية. لقد استخدمها العمل الحديث كخطأ في وكلاء فهم اللغة المستقلة، مع وجود الدافع هو فهم معاني الكلمات أو الدلالات هو مكون رئيسي في كيفية فهم البشر والسبب والتصرف في هذه
تم إثبات مهام معالجة اللغة الطبيعية (NLP)، بدءا من تصنيف النص إلى جيل النص، من خلال نماذج اللغة المحددة مسبقا، مثل بيرت. هذا يسمح للشركات بإنشاء برامج برت أقوى بسهولة عن طريق تثبيت نماذج Berted Brounded لمهام المصب. ومع ذلك، عندما يتم نشر نموذج Berte
في أنظمة الحوار الموجهة نحو الأهداف، يقدم المستخدمون المعلومات من خلال قيم الفتحة لتحقيق أهداف محددة. عمليا، يمكن أن تكون بعض مجموعات قيم الفتحة غير صالحة وفقا للمعرفة الخارجية. على سبيل المثال، مزيج من بيتزا الجبن "(عنصر القائمة) وملفات تعريف الارتب
أن تكون شركاء محادثة جيدة، يجب تدريب أنظمة معالجة اللغة الطبيعية (NLP) على إنتاج كلمات مفيدة بشكل سياق. حقق العمل المسبق في تدريب أنظمة NLP بالأهداف القائمة على الاتصالات، حيث يقف المستمع العصبي كشريك اتصال. ومع ذلك، فإن هذه الأنظمة تعاني عادة من الا
القيلات السحائية النخاعية آفة كثيرة الشيوع ببلادنا، و للأسف معظم الإصابات بها تنتهي بإعاقة و عاهة دائمة، و قسم كبير من هؤلاء الأطفال نفقدهم بالتهاب سحايا عقابيل تلك القيلات. و هنا نطرح التساؤل: لِم هذه
الآفات شائعة ببلادنا في حين أصبحت شبه نادرة بال