غالبا ما تحتاج أنظمة الحوار الموجهة نحو المهام (TOD) في كثير من الأحيان إلى صياغة استعلامات قاعدة المعارف (KB) المقابلة من نية المستخدم واستخدام نتائج الاستعلام لتوليد ردود النظام. تتطلب الأساليب الموجودة مجموعات بيانات حوار لتعليق هذه الاستعلامات KB بشكل صريح --- يمكن أن تكون التعليقات التوضيحية تستغرق وقتا طويلا ومكلفة. ردا على ذلك، نحدد المشكلات الجديدة للتنبؤ ب QB Query وتدريب وكيل الحوار، دون التعليق التوضيحي لاستعلام KB الصريح. بالنسبة للتنبؤ بالاستعلام، نقترح خط أساسي لتعليم التعلم (RL)، والذي يكافئ جيل هذه الاستفسارات التي تغطي نتائج KB التي تغطي الكيانات المذكورة في مربع حوار لاحق. يكشف التحليل الإضافي أن الارتباط بين سمات الاستعلام في KB يمكن أن يخلط بشكل كبير من تحسين سياسة الذاكرة المعزز (MAPO)، وهي حالة موجودة من وكيل الفن rl. لمعالجة هذا، نحسن خط الأساس Mapo مع تعديلات بسيطة ولكنها مهمة مناسبة لمهمتنا. لتدريب نظام TOD الكامل لإعدادنا، نقترح نهج خط أنابيب: إنه يتوقع بشكل مستقل عند إجراء استعلام KB (تنبئ موضع الاستعلام)، ثم يتوقع استعلام KB على الوظيفة المتوقعة (تنبئ الاستعلام)، ويستخدم نتائج استعلام متوقع في مربع حوار لاحق (تنبئ الاستجابة التالي). بشكل عام، يقترح عملنا الحلول الأولى لمشكلةنا الجديدة، وتحليلنا يسلط الضوء على التحديات البحثية في تدريب أنظمة TOM دون التعليق التوضيحي الاستعلام.
Abstract Task-oriented dialog (TOD) systems often need to formulate knowledge base (KB) queries corresponding to the user intent and use the query results to generate system responses. Existing approaches require dialog datasets to explicitly annotate these KB queries---these annotations can be time consuming, and expensive. In response, we define the novel problems of predicting the KB query and training the dialog agent, without explicit KB query annotation. For query prediction, we propose a reinforcement learning (RL) baseline, which rewards the generation of those queries whose KB results cover the entities mentioned in subsequent dialog. Further analysis reveals that correlation among query attributes in KB can significantly confuse memory augmented policy optimization (MAPO), an existing state of the art RL agent. To address this, we improve the MAPO baseline with simple but important modifications suited to our task. To train the full TOD system for our setting, we propose a pipelined approach: it independently predicts when to make a KB query (query position predictor), then predicts a KB query at the predicted position (query predictor), and uses the results of predicted query in subsequent dialog (next response predictor). Overall, our work proposes first solutions to our novel problem, and our analysis highlights the research challenges in training TOD systems without query annotation.
References used
https://aclanthology.org/
Continual learning in task-oriented dialogue systems allows the system to add new domains and functionalities overtime after deployment, without incurring the high cost of retraining the whole system each time. In this paper, we propose a first-ever
We propose a novel problem within end-to-end learning of task oriented dialogs (TOD), in which the dialog system mimics a troubleshooting agent who helps a user by diagnosing their problem (e.g., car not starting). Such dialogs are grounded in domain
As the labeling cost for different modules in task-oriented dialog (ToD) systems is expensive, a major challenge is to train different modules with the least amount of labeled data. Recently, large-scale pre-trained language models, have shown promis
Dialogue policy optimisation via reinforcement learning requires a large number of training interactions, which makes learning with real users time consuming and expensive. Many set-ups therefore rely on a user simulator instead of humans. These user
Recent task-oriented dialogue systems learn a model from annotated dialogues, and such dialogues are in turn collected and annotated so that they are consistent with certain domain knowledge. However, in real scenarios, domain knowledge is subject to