ترغب بنشر مسار تعليمي؟ اضغط هنا

المهمة المشتركة إعادة التوبيخ بشأن استنساخ التقييمات البشرية في NLG: نظرة عامة والنتائج

The ReproGen Shared Task on Reproducibility of Human Evaluations in NLG: Overview and Results

217   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

شهد حقل NLP مؤخرا زيادة كبيرة في العمل المتعلق بتكاثر النتائج، وأكثر اعترافا بشكل عام بأهمية وجود تعريفات وممارسات مشتركة تتعلق بالتقييم. وقد تركز الكثير من العمل على الاستيلاء على الدرجات المترية حتى الآن، مع استنساخ نتائج التقييم البشرية التي تتلقى اهتماما أقل بكثير. كجزء من برنامج بحثي مصمم لتطوير نظرية وممارسة تقييم استنساخ في NLP، نظمت المهمة المشتركة الأولى بشأن استنساخ التقييمات البشرية، وتوبيخ 2021. تصف هذه الورقة المهمة المشتركة بالتفصيل، تلخص النتائج من كل مجال من دراسات الاستنساخ قدمت، ويوفر المزيد من التحليل المقارن للنتائج. من بين تسع تسجيلات الفريق الأولية، تلقينا عروض من أربعة فرق. كشف التحليل التلوي لدراسات الاستنساخ الأربعة عن درجات متفاوتة من التكاثر، وسمحت باستنتاجات أولية مبدئية للغاية حول أنواع التقييم التي تميل إلى تحسين استنساخ أفضل.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم نظرة عامة على المهمة المشتركة السكري، التي قدمت في ورشة عمل المعالجة بالوثائق العلمية الثانية (SDP) في Naacl 2021. وفي هذه المهمة المشتركة، قدمت النظم مطالبة علمية وجزح من ملخصات البحث، وطلب تحديد المقالات التي تدعمهاأو دحض المطالبة وكذلك توفير جمل إثبات تبرير هذه الملصقات.11 قدمت فرق ما مجموعه 14 تقريرا إلى المتصدرين المهمة المشتركة، مما يؤدي إلى تحسين أكثر من +23 F1 على متري تقييم المهام الأساسية.بالإضافة إلى مسح النظم المشاركة، فإننا نقدم العديد من الأفكار في نهج النمذجة لدعم التقدم المحرز المستمر والبحث في المستقبل حول المهمة المهمة والصعبة للتحقق من الادعاء العلمي.
في هذه الورقة، نقدم المهمة المشتركة ESPR4NLP-2021 على تقدير الجودة القادم.بالنظر إلى زوج ترجمة من المصدر، فإن هذه المهمة المشتركة لا تتطلب فقط توفير درجة على مستوى الجملة تشير إلى الجودة الشاملة للترجمة، ولكن أيضا لشرح هذه النقاط عن طريق تحديد الكلما ت التي تؤثر سلبا على جودة الترجمة.نقدم البيانات وإرشادات التوضيحية وإعداد تقييم المهمة المشتركة، وصف النظم الستة المشاركة وتحليل النتائج.إلى حد ما من معرفتنا، هذه هي المهمة المشتركة الأولى على مقاييس تقييم NLP القابلة للتفسير.تتوفر مجموعات البيانات والنتائج في https://github.com/eval4nlp/sharedtask2021.
توفر هذه الورقة نظرة عامة على المهمة المشتركة WANLP 2021 بشأن السخرية والكشف عن المعنويات باللغة العربية.المهمة المشتركة لها مفتاحان فرعي: الكشف عن السخرية (الفرعية 1) وتحليل المعرفات (SubTask 2).تهدف هذه المهمة المشتركة إلى الترويج والاهتمام بالكشف عن السخرية العربية، وهو أمر بالغ الأهمية لتحسين الأداء في مهام أخرى مثل تحليل المعرفات.تتكون DataSet المستخدمة في هذه المهمة المشتركة، وهي Arsarcasm-V2، من 15،548 تغريدات تسمى السخرية والشعور واللهجة.تلقينا 27 و 22 عروضا للمجموعات الفرعية 1 و 2 على التوالي.تعتمد معظم النهج على استخدام النماذج اللغوية المدربة مسبقا وضبطها جيدا مثل أرابيرت وماربرت.وكانت أفضل النتائج التي تحققت في مهام تحليل السخرية وتحليل المعنويات 0.6225 F1 و 0.748 F1-PN على التوالي.
تقدم هذه الورقة نتائج المهمة المشتركة للمقاييس WMT21. طلب من المشاركين تسجيل مخرجات أنظمة الترجمة المتنافسة في مهمة الترجمة الأخبار WMT21 مع مقاييس أوتوماتيكية على مجطتين مختلفتين: أخبار ومحادثات تيد. تم تقييم جميع المقاييس على مدى ارتباطها على مستوى النظام والقطاع مع التصنيفات البشرية. على عكس إصدارات السنوات السابقة، فقد استحوذنا هذا العام على تصنيفاتنا الإنسانية الخاصة بنا على أساس التقييم البشري القائم على الخبراء عبر مقاييس الجودة متعددة الأبعاد (MQM). يحتوي هذا الإعداد على العديد من المزايا: (1) قد أظهر التقييم القائم على الخبراء أنه أكثر موثوقية، (2) تمكنا من تقييم جميع المقاييس على مجاليين مختلفين باستخدام ترجمات نفس أنظمة MT، (III) أضفنا 5 إضافية الترجمات القادمة من نفس النظام أثناء تطوير النظام. بالإضافة إلى ذلك، صممنا ثلاث مجموعات تحدي تقيم متانة جميع المقاييس التلقائية. نقدم تحليلا مكثفا حول مدى أداء المقاييس على أزواج ثلاث لغات: الإنجليزية إلى الألمانية والإنجليزية إلى الروسية والصينية إلى الإنجليزية. نوضح تأثير الترجمات المرجعية المختلفة على المقاييس المستندة إلى المرجع ومقارنة شرح MQM القائم على الخبراء مع درجات DA المكتسبة بواسطة WMT.
الحس السليم هو جزء لا يتجزأ من الإدراك البشري الذي يسمح لنا بإجراء قرارات سليمة، والتواصل بفعالية مع الآخرين وتفسير المواقف والكلام. قد تساعدنا أنظمة AI مع إمكانيات المعرفة المنطقية على الاقتراب من إنشاء أنظمة تعرض ذكاء بشري. ركزت الجهود الأخيرة في ت وليد اللغة الطبيعية (NLG) على دمج معرفة المنظمات من خلال نماذج لغوية مدربة مسبقا واسعة النطاق أو بإدماج قواعد المعرفة الخارجية. تعرض هذه الأنظمة إمكانيات التفكير دون الشعور بالشمول المشفرة بشكل صريح في مجموعة التدريب. تتطلب هذه الأنظمة تقييم دقيق، حيث تقوم بدمج موارد إضافية أثناء التدريب التي تضيف مصادر إضافية للأخطاء. بالإضافة إلى ذلك، يمكن أن يكون للتقييم البشري لمثل هذه الأنظمة اختلافا كبيرا، مما يجعل من المستحيل مقارنة الأنظمة المختلفة وتحديد الأساس. تهدف هذه الورقة إلى إزالة الغموض عن التقييمات الإنسانية لأنظمة NLG المعززة بالعموم من خلال اقتراح بطاقة تقييم العمولة (CEC)، وهي مجموعة من توصيات تقارير التقييم لأنظمة NLG المعززة بالعموم، التي أجرتها تحليل شامل للتقييمات البشرية المبلغ عنها في الأدب الأخير وبعد

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا