Dreecdial 2.0: مجموعة متوازية ثنائية اللغة توصية المحادثة


الملخص بالعربية

في هذه الورقة، نقدم مجموعة بيانات توصية ثنائية اللغة بالتوازي ثنائية اللغة (Dreecdial 2.0) لتمكين الباحثين من استكشاف مهمة صعبة في توصية محادثة متعددة اللغات ومتعددة اللغات. الفرق بين Dreecdial 2.0 ومجموعات بيانات توصية المحادثة الحالية هو أن عنصر البيانات (الملف الشخصي والهدف والمعرفة والسياق، والاستجابة) في Dreecdial 2.0 يتم تفاحيا بلغتين، الإنجليزية والصينية، في حين أن مجموعات البيانات الأخرى بنيت مع إعداد لغة واحدة. نقوم بجمع مربعات الحوار 8.2k محاذاة على اللغات الإنجليزية والصينية (16.5 ألف مربع حوار وأحدث 255 ألفا في المجموع) المشروح من قبل عمال التعيد الجماعي مع إجراء مراقبة الجودة الصارم. ثم نقوم ببناء خطوط خطوط خطوط محادثة محادثة مونولجة متعددة اللغات متعددة اللغات على Dreecdial 2.0. تشير نتائج التجربة إلى أن استخدام بيانات اللغة الإنجليزية الإضافية يمكن أن يحقق تحسين الأداء لتوصية التحدث الصينية، مما يشير إلى فوائد Dreecdial 2.0. أخيرا، توفر هذه البيانات هذه البيانات اختبارا صعبة للدراسات المستقبلية لتوصية محادثة مونولينغ متعددة اللغات والتعددية اللغوية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث