ترغب بنشر مسار تعليمي؟ اضغط هنا

XPersona: تقييم شاتبوت شخصي متعدد اللغات

XPersona: Evaluating Multilingual Personalized Chatbot

236   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أنظمة الحوار الشخصية هي خطوة أساسية نحو تفاعل أفضل للرشاشة. يعتمد عملاء الحوار الشخصي الموجودين على مجموعات بيانات المحادثة المصممة بشكل صحيح، والتي هي في الغالب أحادية طاهرية (على سبيل المثال، الإنجليزية)، والتي تحد بشكل كبير من استخدام وكلاء المحادثة بلغات أخرى. في هذه الورقة، نقترح تمديد متعدد اللغات من الدردشة، أي XPersona. تتضمن DataSet لدينا محادثات الشخص في ست لغات مختلفة بخلاف اللغة الإنجليزية لتقييم وكلاء شخصيين متعدد اللغات. نقوم بتجربة خطوط الأساس المدربين متعدد اللغات واللغات المعلنة وتقييمها ضد نماذج خطوط الأنابيب أحادية الترجمة والترجمة باستخدام التقييم التلقائي والبشري. تظهر النتائج التجريبية أن النماذج المدربة متعددة اللغات تتفوق على خط أنابيب الترجمة وأنها على قدم المساواة مع النماذج الأولية، مع ميزة وجود نموذج واحد عبر لغات متعددة. من ناحية أخرى، فإن النماذج المدربة عبر اللغات الواحد من بين الفن تحقق أدنى أدنى للنماذج الأخرى، مما يدل على أن نمذجة المحادثة عبر اللغات هي مهمة صعبة. نأمل أن تسرع مجموعة بياناتنا وخطوط الأساسين بحثا في أنظمة حوار متعددة اللغات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

على الرغم من العدد المتزايد من أنظمة الترجمة الآلية الكبيرة والشاملة (MT)، فقد تم تقييد تقييم هذه الأساليب بلغات مختلفة بسبب عدم وجود كورسا موازية عالية الجودة بالإضافة إلى المشاركة مع الأشخاص الذين يتحدثون هذه اللغات. في هذه الدراسة، نقدم تقييم مناه ج أحدث من النهج التدريبية لتدريب وتقييم أنظمة MT في 22 لغة من عائلة اللغات التركية، معظمها يتم استكشافها بشكل كبير. أولا، نعتمد كوربوس سمسم مع بعض التحسينات الرئيسية على التدريب ومجموعات التقييم. ثم، ندرب 26 خطوط خطوط خطوط خطية ثنائية اللغة بالإضافة إلى نموذج MT (MNMT) متعدد الاتجاهات باستخدام Corpus وأداء تحليل مكثف باستخدام المقاييس التلقائية وكذلك التقييمات البشرية. نجد أن نموذج MNMT يتفوق على جميع خطوط الأساس الثنائية الثالثة تقريبا في مجموعات الاختبار خارج المجال وتؤدي النموذج الموجود على مهمة المصب من زوج واحد يؤدي أيضا إلى زيادة كبيرة في الأداء في كل من سيناريوهات منخفضة وعالية الموارد. يشير تحليلنا اليقظ لمعايير التقييم لنماذج MT باللغات التركية أيضا إلى ضرورة مزيد من البحث في هذا الاتجاه. نقوم بإصدار تقسيم Corpus، ومجموعات الاختبار وكذلك النماذج للجمهور.
يميل مؤلفو النص إلى استخدام إحساس واحد في الغالب ل Lemma التي يمكن أن تختلف بين المؤلفين المختلفين.قد لا يتم التقاط هذا بنموذج Disambiguation Sense (WSD) المعذر (WSD) الذي تم تدريبه على المؤلفين المتعددين.يجد عملنا أن الحواس الأولى في WordNet، والحوا س السائدة من نوع DataSet الخاص بنا، والاستحواذ السائدة للمؤلف يمكن أن تكون مختلفة، وبالتالي، يمكن أن تؤدي النماذج المؤلف للأذرع بشكل جيد على مجموعة البيانات بأكملها، ولكن بشكل سيء على المؤلفين الأفراد.في هذا العمل، نستكشف أساليب تخصيص نماذج WSD عن طريق خياطة النماذج الموجودة من أحدث النماذج نحو الفرد من خلال استغلال توزيعات معنى المؤلف.نقترح مجموعة بيانات WSD الجديدة وإظهار أن تخصيص نظام WSD مع معرفة توزيعات معنى المؤلف أو الحواس السائدة يمكن أن تزيد بشكل كبير أدائها.
تعرف الهند باسم أرض العديد من الألسنة واللهجات. الترجمة الآلية العصبية (NMT) هي النهج الحديث الحالي للترجمة الآلية (MT) ولكنه يعمل بشكل أفضل فقط مع مجموعات البيانات الكبيرة التي تفتقر إليها اللغات الهندية عادة، مما يجعل هذا النهج غير قابل للاستمرار. لذلك، في هذه الورقة، نتعامل مع مشكلة ندرة البيانات من خلال تدريب أنظمة NMT متعددة اللغات متعددة اللغات وغير اللغوية التي تنطوي على لغات ?????? ????????????. نحن نقترح تقنية استخدام علامات المجال واللغة المشتركة في إعداد متعدد اللغات. نرسم ثلاث استنتاجات رئيسية من تجاربنا: (1) تدريب نظام متعدد اللغات عبر استغلال التشابه المعجمي على أساس الأسرة اللغوية يساعد في تحقيق متوسط ​​تحسن إجمالي ?. تساعد الرموز اللغوية على نظام المجال متعدد اللغات في الحصول على تحسين متوسط ​​متوسط ​​? ???? ?????? على أساس الأساس، (3) يساعد المرابط بشكل جيد على تحسين تحسين ?-?.? ???? ?????? للحصول على زوج لغة الاهتمام وبعد
الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين الأصليين في هذه اللغة أو أنها تتطلب الكثير من البيانات المسمى باهظة الثمن مرة أخرى لتوليد، فإن مهمة تصنيف النص تصبح تحديا لمعظم الهندي اللغات. الهدف الرئيسي من هذه الورقة هو معرفة كيف يمكن للمرء الاستفادة من التشابه المعجمي الموجود باللغات الهندية في سيناريو متعدد اللغات. هل يمكن إعادة استخدام نموذج تصنيف مدرب على لغة هندية واحدة لغات هندية أخرى؟ لذا، أجرينا تصنيف نصي بالرصاص عن طريق استغلال التشابه المعجمي وملاحظ أن طرازنا ينفذ بشكل أفضل في تلك الحالات حيث يتداخل المفردات بين مجموعات البيانات اللغوية كحد أقصى. تؤكد تجاربنا أيضا أن نموذجا واحدا متعدد اللغات مدرب عبر رابط استغلال اللغة يتفوق على الأساس من الهوامش الهامة.
في حين أن مجال نقل النمط (ST) ينمو بسرعة، فقد أعاقه بعدم وجود ممارسات موحدة للتقييم التلقائي.في هذه الورقة، نقوم بتقييم المقاييس التلقائية الرائدة على المهمة التي تم بحثها عن نقل أسلوب الأشكال.على عكس التقييمات السابقة، التي تركز فقط على اللغة الإنجل يزية فقط، فإننا نوسع تركيزنا على البرتغالية البرازيلية والفرنسية والإيطالية، مما يجعل هذا العمل أول تقييم متعدد اللغات للمقاييس في القديس.نحن نخوض أفضل الممارسات للتقييم التلقائي في نقل النمط (الشكلية) وتحديد العديد من النماذج التي ترتبط بشكل جيد مع الأحكام البشرية وهي قوية عبر اللغات.نأمل أن يساعد هذا العمل في تسريع التطوير في القديس، حيث يكون التقييم البشري غالبا ما يكون تحديا لجمعه.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا