يتم إنشاء مجموعات بيانات الحوار الشائعة مثل MultiWoz من خلال توفير تعليمات حشد من التعليمات، معبرا عنها بلغة طبيعية، والتي تصف المهمة التي يجب إنجازها.يلعب عمال الحشد دور مستخدم وكيل لتوليد الحوار لإنجاز المهام التي تنطوي على جداول حجز مطعم، وتدعو إلى سيارة أجرة وما إلى ذلك. في هذه الورقة، نقدم استراتيجية إنشاء بيانات تستخدم نموذج اللغة المدرب مسبقا، GPT2، لمحاكاةالتفاعل بين عمال الحشد من خلال إنشاء روبوت مستخدم وبوت وكيل.نحن ندرب المحاكاة باستخدام نسبة أصغر من المحادثات الناتجة عن الحشود الفعلية وتعليماتها المقابلة.نوضح ذلك باستخدام البيانات المحاكاة، نحقق تحسينات كبيرة في إعدادات الموارد المنخفضة على مجموعة بيانات متوفرة للجمهور - مجموعة بيانات MultiWoz و DataSet Chamenta.
Popular dialog datasets such as MultiWOZ are created by providing crowd workers an instruction, expressed in natural language, that describes the task to be accomplished. Crowd workers play the role of a user and an agent to generate dialogs to accomplish tasks involving booking restaurant tables, calling a taxi etc. In this paper, we present a data creation strategy that uses the pre-trained language model, GPT2, to simulate the interaction between crowd workers by creating a user bot and an agent bot. We train the simulators using a smaller percentage of actual crowd-generated conversations and their corresponding instructions. We demonstrate that by using the simulated data, we achieve significant improvements in low-resource settings on two publicly available datasets - MultiWOZ dataset and the Persona chat dataset.
المراجع المستخدمة
https://aclanthology.org/
لكل مهمة حوار موجهة نحو تحقيق الأهداف ذات أهمية، يجب جمع كميات كبيرة من البيانات للحصول على التعلم المنتهي للنظام الحوار العصبي.جمع هذه البيانات هي عملية مكلفة وتستغرق وقتا طويلا.بدلا من ذلك، نوضح أنه يمكننا استخدام كمية صغيرة فقط من البيانات، والتي
اكتسبت النماذج الإدارية لأنظمة الحوار اهتماما كبيرا بسبب النجاح الأخير من RNN والنماذج القائمة على المحولات في مهام مثل الإجابة على الأسئلة والتلخيص. على الرغم من أن مهمة استجابة الحوار ينظر إليها عموما على أنها تسلسل للتسلسل (SEQ2SEQ) المشكلة، فقد و
يمكن تصنيف الأجهزة المحمولة، التي تلخص تماما المواضيع الرفيعة المستوى التي تمت مناقشتها في وثيقة، في عبارة البصرة الحالية التي تظهر صراحة في النص المصدر والفتحية الغائبة التي لا تتطابق مع أي لاحق متجاور ولكنه مرتبط للغاية بالمصدر. معظم نهج توليد مفات
الحوار المرئي صعبا لأنه يحتاج إلى الإجابة على سلسلة من الأسئلة المتماسكة بناء على فهم البيئة المرئية. كيفية الأرض الكائنات المرئية ذات الصلة هي واحدة من المشاكل الرئيسية. تستخدم الدراسات السابقة السؤال والتاريخ للحضور في الصورة وتحقيق أداء مرضي، في ح
على الرغم من التقدم الرائع في مجال الوسائط الحسابية، غالبا ما تعتمد نظم الحوار المعنية ذات المهام الجدلية على المعرفة المهيكلة حول الحجج وعلاقاتها. نظرا لأن الاستحواذ اليدوي لهياكل الوسيطة هذه تستغرق وقتا طويلا، فإن النظم المقابلة غير مرنة فيما يتعلق