ترغب بنشر مسار تعليمي؟ اضغط هنا

التقييم البشري لأنظمة NLG الإبداعية: مسح متعدد التخصصات على الأوراق الأخيرة

Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on Recent Papers

158   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقوم بإجراء تقييم بشري في الأوراق التي تقدم العمل على توليد اللغة الطبيعية الإبداعية التي تم نشرها في INLG 2020 و ICCC 2020. أكثر طريقة التقييم البشرية النموذجية هي مسح كبير الحجم، وعادة ما تكون على نطاق 5 نقاط، في حين وجود العديد من الأساليب الأقل شيوعا أخرى.المعلمات الأكثر شيوعا هي معنى، صحة النحوية، الجدة والأهمية والقيمة العاطفية، من بين العديد من الآخرين.تشمل المبادئ التوجيهية الخاصة بنا للتقييم المستقبلي بوضوح هدف النظام التوليدي، وطرح أسئلة كملموسة قدر الإمكان، واختبار إعداد التقييم، باستخدام إعدادات تقييم متعددة متعددة، وإبلاغ عملية التقييم بأكملها والتحيزات المحتملة بوضوح، وأخيرا تحليل نتائج التقييم في النهايةبطريقة أكثر عمقا من إبلاغ الإحصاءات الأكثر نموذجية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تهدف هذه الورقة إلى تقديم نظرة عامة شاملة للتطورات الأخيرة في تتبع حكمة الحوار (DST) لأنظمة المحادثات الموجهة نحو المهام.نقدم المهمة، وخاصة البيانات الرئيسية التي تم استغلالها وكذلك مقاييس تقييمها، ونحن نحلل العديد من النهج المقترحة.نحن نميز بين نماذ ج DST غير الثابتة، والتي تتنبأ بمجموعة ثابتة من دول الحوار، ونماذج الأطباق الديناميكية، والتي يمكن أن تتنبؤ حوار الحوار حتى عندما تتغير عملية الأونولوجيا.ونناقش أيضا قدرة النموذج على تتبع النطاقات الفردية أو المتعددة والقياس إلى مجالات جديدة، سواء من حيث نقل المعرفة والتعلم الصفر.نحن نغطي فترة من عام 2013 إلى 2020، مما يدل على زيادة كبيرة في أساليب مجال متعددة، ومعظمها باستخدام نماذج اللغة المدربة مسبقا.
دراسات الترجمة وبشكل أكثر تحديدا، هي دراسات الترجمة الوصفية الفرعية [هولمز 1988/2000]، وفقا للعديد من العلماء [جامبير، 2009؛ Nenopoulou، 2007؛ Munday، 2001/2008؛ هيرميران، 1999؛ Snell-Hornby et al.، 1994 E.T.C]، وهو مجال دراسي متعدد التخصصات للغاية. الهدف من الورقة الحالية هو وصف دور كورسيا PolySemiotic في دراسة توطين موقع الجامعة من منظور متعدد التخصصات. وبشكل أكثر تحديدا، تقدم الورقة نظرة عامة على بحث مستنقع مستمر حول تكوين هوية مواقع الويب الجامعية اليونانية على الويب، مع التركيز على المنهجية المعتمدة بالإشارة إلى تجميع كوربورا بناء على الأدوات والمفاهيم المنهجية من مختلف المجالات مثل دراسات الترجمة مثل دراسات الترجمة والطبيون الاجتماعية والدراسات الثقافية وتحليل الخطاب النقدي والتسويق. إن كائنات التحليل المقارن هي المواقع الجامعية اليونانية والفرنسية الأصلية والمترجمة (إلى الإنجليزية) بالإضافة إلى إصدارات موقع الجامعة البريطانية والأمريكية الأصلية. لقد أظهرت نتائج البحث حتى الآن أن Corpora PolySemiotic يمكن أن تكون أداة قيمة ليس فقط من الكمية فقط ولكن أيضا من التحليل النوعي لتوطين الموقع لكل من العلماء ومهنيي الترجمة العاملين مع الأنواع متعددة الوسائط.
توفر هذه الورقة نظرة عامة سريعة على الطرق الممكنة كيفية اكتشاف هذه الترجمات المرجعية بالفعل من خلال تحرير نظام MT بعد التحرير.يتم تقديم طريقتين استنادتين إلى المقاييس التلقائية: اختلاف بلو بين MT المشتبه به وبعض اختلاف MT جيد و Blue باستخدام مراجع إض افية.كشفت هاتين الطريقتين الشكوك بأن المرجع التشيكي WMT 2020 يعتمد على MT.تم تأكيد الشك في تحليل يدوي من خلال إيجاد دليل ملموس لإجراءات ما بعد التحرير في جمل معينة.أخيرا، يتم تقديم نموذجية من تغييرات ما بعد التحرير حيث يتم تصنيف الأخطاء أو التغييرات النموذجية التي يتم إجراؤها بواسطة محرر ما بعد المحرر أو الأخطاء المعتمدة من MT.
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق نقل النمط، نجد أن بروتوكولات التقييمات البشرية غالبا ما تكون غير محددة وغير موحدة، والتي تعيق استنساخ البحث في هذا المجال والتقدم نحو أساليب تقييم بشرية وتلقائية أفضل.
نحن نبحث عن مشكلة الاختلال العظيمة في أبحاث معالجة اللغات الطبيعية، وهذا يعني ببساطة أن تعريف المشكلة لا يتماشى مع الطريقة المقترحة والتقييم البشري لا يتماشى مع التعريف ولا الطريقة.ندرس هذه المشكلة الاختلافة من خلال مسح 10 ورقات أخذ عينات عشوائيا منش ورة في ACL 2020 التي ينتج عنها التقرير البشري.تظهر نتائجنا أن ورقة واحدة فقط كانت متوافقة تماما من حيث تعريف المشكلة والطريقة والتقييم.قدمت ورقتين فقط تقييم بشري يتماشى مع ما تم تصميمه في الطريقة.وتسليط الضوء على هذه النتائج أن مشكلة الاختلافة العظيمة هي رئيسة كبيرة وتؤثر على صحة وتطوير النتائج التي حصل عليها تقييم بشري.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا