أنظمة الحوار الشخصية هي خطوة أساسية نحو تفاعل أفضل للرشاشة. يعتمد عملاء الحوار الشخصي الموجودين على مجموعات بيانات المحادثة المصممة بشكل صحيح، والتي هي في الغالب أحادية طاهرية (على سبيل المثال، الإنجليزية)، والتي تحد بشكل كبير من استخدام وكلاء المحادثة بلغات أخرى. في هذه الورقة، نقترح تمديد متعدد اللغات من الدردشة، أي XPersona. تتضمن DataSet لدينا محادثات الشخص في ست لغات مختلفة بخلاف اللغة الإنجليزية لتقييم وكلاء شخصيين متعدد اللغات. نقوم بتجربة خطوط الأساس المدربين متعدد اللغات واللغات المعلنة وتقييمها ضد نماذج خطوط الأنابيب أحادية الترجمة والترجمة باستخدام التقييم التلقائي والبشري. تظهر النتائج التجريبية أن النماذج المدربة متعددة اللغات تتفوق على خط أنابيب الترجمة وأنها على قدم المساواة مع النماذج الأولية، مع ميزة وجود نموذج واحد عبر لغات متعددة. من ناحية أخرى، فإن النماذج المدربة عبر اللغات الواحد من بين الفن تحقق أدنى أدنى للنماذج الأخرى، مما يدل على أن نمذجة المحادثة عبر اللغات هي مهمة صعبة. نأمل أن تسرع مجموعة بياناتنا وخطوط الأساسين بحثا في أنظمة حوار متعددة اللغات.
Personalized dialogue systems are an essential step toward better human-machine interaction. Existing personalized dialogue agents rely on properly designed conversational datasets, which are mostly monolingual (e.g., English), which greatly limits the usage of conversational agents in other languages. In this paper, we propose a multi-lingual extension of Persona-Chat, namely XPersona. Our dataset includes persona conversations in six different languages other than English for evaluating multilingual personalized agents. We experiment with both multilingual and cross-lingual trained baselines and evaluate them against monolingual and translation-pipeline models using both automatic and human evaluation. Experimental results show that the multilingual trained models outperform the translation pipeline and that they are on par with the monolingual models, with the advantage of having a single model across multiple languages. On the other hand, the state-of-the-art cross-lingual trained models achieve inferior performance to the other models, showing that cross-lingual conversation modeling is a challenging task. We hope that our dataset and baselines will accelerate research in multilingual dialogue systems.
المراجع المستخدمة
https://aclanthology.org/
على الرغم من العدد المتزايد من أنظمة الترجمة الآلية الكبيرة والشاملة (MT)، فقد تم تقييد تقييم هذه الأساليب بلغات مختلفة بسبب عدم وجود كورسا موازية عالية الجودة بالإضافة إلى المشاركة مع الأشخاص الذين يتحدثون هذه اللغات. في هذه الدراسة، نقدم تقييم مناه
يميل مؤلفو النص إلى استخدام إحساس واحد في الغالب ل Lemma التي يمكن أن تختلف بين المؤلفين المختلفين.قد لا يتم التقاط هذا بنموذج Disambiguation Sense (WSD) المعذر (WSD) الذي تم تدريبه على المؤلفين المتعددين.يجد عملنا أن الحواس الأولى في WordNet، والحوا
تعرف الهند باسم أرض العديد من الألسنة واللهجات. الترجمة الآلية العصبية (NMT) هي النهج الحديث الحالي للترجمة الآلية (MT) ولكنه يعمل بشكل أفضل فقط مع مجموعات البيانات الكبيرة التي تفتقر إليها اللغات الهندية عادة، مما يجعل هذا النهج غير قابل للاستمرار.
الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين
في حين أن مجال نقل النمط (ST) ينمو بسرعة، فقد أعاقه بعدم وجود ممارسات موحدة للتقييم التلقائي.في هذه الورقة، نقوم بتقييم المقاييس التلقائية الرائدة على المهمة التي تم بحثها عن نقل أسلوب الأشكال.على عكس التقييمات السابقة، التي تركز فقط على اللغة الإنجل