ترغب بنشر مسار تعليمي؟ اضغط هنا

نحو التقييم التلقائي لأنظمة الحوار: نهج تقييم نموذجي خال من النموذج

Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach

743   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

منذ فترة طويلة انتهت التقييم التلقائي الموثوق لأنظمة الحوار بموجب بيئة تفاعلية. تحتاج بيئة مثالية لتقييم أنظمة الحوار، المعروفة أيضا باسم اختبار Turing، إلى إشراك التفاعل البشري، وعادة ما تكون غير متناول تجارب واسعة النطاق. على الرغم من أن الباحثين قد حاولوا استخدام مقاييس مهام توليد اللغة (على سبيل المثال، الحيرة، بلو) أو بعض طرق التعزيز القائمة على الطراز (مثل تقييم التشغيل الذاتي) للتقييم التلقائي، إلا أن هذه الطرق تظهر فقط ارتباط ضعيف للغاية مع التقييم البشري الفعلي في التمرين. لكسر هذه الفجوة، نقترح إطارا جديدا يدعى لغز لتقدير درجات التقييم البشرية بناء على التقدم الأخير للتقييم خارج السياسات في التعلم التعزيز. يتطلب Enigma فقط حفنة من بيانات الخبرة التي تم جمعها مسبقا، وبالتالي لا تنطوي على تفاعل بشري مع السياسة المستهدفة أثناء التقييم، مما يجعل التقييمات التلقائية الممكنة. والأهم من ذلك أن Enigma هو خال من النموذج والأذرع لسياسات السلوك لجمع بيانات الخبرة، مما يخفف بشكل كبير الصعوبات التقنية في بيئات الحوار المعقدة النمذجة والسلوكيات البشرية. تظهر تجاربنا أن لغز تتفوق بشكل كبير على الأساليب الحالية من حيث الارتباط مع درجات التقييم البشري.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في السنوات الأخيرة، اكتسبت الترجمة التلقائية للكلام في الكلام والكلام إلى النص زخما بفضل التقدم في الذكاء الاصطناعي، وخاصة في مجالات التعرف على الكلام والترجمة الآلية. يتم اختبار جودة هذه التطبيقات بشكل شائع مع المقاييس التلقائية، مثل بلو، في المقام الأول بهدف تقييم التحسينات في الإصدارات أو في سياق حملات التقييم. ومع ذلك، يعرف القليل عن كيفية إدراك إخراج هذه الأنظمة من قبل المستخدمين النهائيين أو كيف تقارن بين العروض البشرية في مهام تواصل مماثلة. في هذه الورقة، نقدم نتائج تجربة تهدف إلى تقييم جودة محرك ترجمة الكلام في الوقت الفعلي من خلال مقارنته بأداء المترجمين الفوريين المهنيين المهنيين. للقيام بذلك، نعتمد إطارا تم تطويره لتقييم المترجمين الفوريين البشري واستخدامه لإجراء تقييم يدوي على كل من العروض البشرية والآلة. في عيناتنا، وجدنا أداء أفضل للمترجمين الفوريين البشري من حيث الوضوح، في حين أن الجهاز ينفذ بشكل أفضل قليلا من حيث المعلوماتية. وتناقش قيود الدراسة والتحسينات المحتملة للإطار المختار. على الرغم من قيودها الجوهرية، فإن استخدام هذا الإطار يمثل خطوة أولى نحو منهجية ذات سن المراهقة على المستخدمين ومنهجية موجهة نحو الاتصال لتقييم ترجمة الكلام التلقائي في الوقت الفعلي.
الأنظمة الآلية التي تتفاوض مع البشر لديها تطبيقات واسعة في علم التربية والاتحاد الدولي للتنصيص. لتعزيز تطوير أنظمة التفاوض العملية، نقدم كازينو: جثة رواية تزيد عن ألف حوارات مفاوضات باللغة الإنجليزية. يأخذ المشاركون دور جيران المخيمات والتفاوض على حز م الأغذية والمياه والحطب لرحلتهم القادمة. ينتج عن تصميمنا مفاوضات غنية متنوعة ومتناهية اللغوية مع الحفاظ على بيئة مجال مغلقة. مستوحاة من الأدبيات في المفاوضات البشرية البشرية، نعلن استراتيجيات الإقناع وأداء تحليل الارتباط لفهم كيفية ارتباط سلوكيات الحوار بأداء التفاوض. ونحن نقترح وتقييم إطار عمل متعدد المهام للتعرف على هذه الاستراتيجيات في كلام معطى. نجد أن التعلم متعدد المهام يحسن بشكل كبير الأداء لجميع ملصقات الاستراتيجية، خاصة بالنسبة للذين هم الأكثر انحاءا. نطلق سراح البيانات والشروح والعهد لدفع العمل المستقبلي في مفاوضات الجهاز البشري: https://github.com/kushalchawla/casino
سجل محاضر سجل أي موضوع ناقش، والقرارات التي تم التوصل إليها والإجراءات المتخذة في الاجتماع.لا يمكن المبالغة في أهمية التلقائي التلقائي.في هذه الورقة، نقدم نهج نافذة منزلقة إلى الجيل التلقائي من محضر الاجتماعات.يهدف إلى معالجة القضايا المتعلقة بطبيعة النص المنطوق، بما في ذلك النص المطول ونقص بنية المستندات، مما يجعل من الصعب تحديد المحتوى البارز المراد تضمينه في محضر الاجتماعات.تجمع نهجنا بين نهج النافذة المنزلق وملخص مبخر عصبي للتنقل من خلال النص الخام للعثور على محتوى بارز.يتم تقييم النهج على نصوص محادثات الاجتماعات الطبيعية، حيث نقارن النتائج التي تم الحصول عليها من أجل النصوص البشرية وإصدارين من النصوص التلقائية ومناقشة كيفية النجاح إلى أي مدى تنجح الملخص في التقاط المحتوى البارزين.
في هذه الورقة، نقول أن أنظمة الحوار قادرة على شرح قراراتها بنشاط يمكنها الاستفادة من المنطق المعني.نحن نحفز سبب هذه الاستراتيجية المناسبة ودمجها ضمن إطار مدير الحوار المؤخري الخاص بنا على أساس المنطق الخطي.على وجه الخصوص، يتيح ذلك نظام الحوار تقديم إ جابات معقولة على السبب في الأسئلة التي تستعرضها المعلومات التي سبق إعطاءها بواسطة النظام.
مربع الحوار هو كتلة لبناء أساسية لتفاعلات اللغة البشرية البشرية.يحتوي على كلمات متعددة الأحزاب المستخدمة لنقل المعلومات من طرف إلى آخر بطريقة ديناميكية ومتطورة.إن القدرة على مقارنة الحوار هي مفيدة في العديد من حالات استخدام العالم الحقيقي، مثل تحليلا ت المحادثة لمكالمات مركز الاتصال وتصميم الوكيل الظاهري.نقترح تكيف جديد من أداة تحرير المسافة إلى سيناريو تشابه الحوار.يأخذ نهجنا في الاعتبار مختلف جوانب المحادثة مثل دلالات الكلام وتدفق المحادثة والمشاركين.نقيم هذا النهج الجديد ومقارنة مع تدابير التشابه الوثيقة الحالية على مجموعة من مجموعات البيانات الخاصة بالجملي.توضح النتائج أن أسلوبنا تتفوق على النهج الأخرى في اتخاذ تدفق حوار الاستسلام، ومن الأفضل أن يتماشى مع التصور البشري لمشاكل المحادثة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا