ترغب بنشر مسار تعليمي؟ اضغط هنا

النمط هو جزء لا يتجزأ من اللغة الطبيعية.ومع ذلك، فإن أساليب التقييم لتدابير النمط نادرة، وغالبا ما تكون المهام الخاصة وعادة ما لا تتحكم في المحتوى.نقترح إطار تقييم النمط المعياري والحبوب المحتوى ومقره المحتوى (STEL) لاختبار أداء أي نموذج يمكن مقارنة جملتين على النمط.نحن نوضح ستيل مع أبعاد عامين من النمط (رسمي / غير رسمي وبسيط / معقد) بالإضافة إلى خصائصين محددة للأسلوب (Contrac'tion and Numb3r البديلة).نجد أن الأساليب القائمة على BERT تفوق إصدارات بسيطة من تدابير النمط الشائعة الاستخدام مثل 3 غرامات وترقيب الترقيم والنهج القائمة على LIWC.نحن ندعو إضافة مهام أخرى وثيمات مهمة إلى ستيل ونأمل في تسهيل تحسين التدابير الحساسة للنمط.
تظهر هذه الورقة أن عصير التفاح، مقياس التقييم التقليدي لوصف الصورة، لا يعمل بشكل صحيح على مجموعات البيانات حيث يكون عدد الكلمات في الجملة أكبر بكثير من تلك الموجودة في مجموعة بيانات التسميات التوضيحية MS COCO.نظهر أيضا أن CIDER-D لديه أداء يعوقه عدم وجود جمل مرجعية متعددة والتباين العالي لطول الجملة.لتجاوز هذه المشكلة، نقدم Cider-R، الذي يحسن CIDER-D، مما يجعله أكثر مرونة في التعامل مع مجموعات البيانات ذات تباين طول الجملة.نوضح أن عصير التفاح هو أكثر دقة وأقرب من الحكم الإنساني من عصير التفاح.Cider-R هو أكثر قوة فيما يتعلق بعدد المراجع المتاحة.تكشف نتائجنا أن استخدام تدريب التسلسل الحرج الذاتي لتحسين عصير التفاح - يولد تعليقا وصفيا.في المقابل، عند تحسين CIDER-D، يميل طول التسميات التوضيحية التي تم إنشاؤها إلى أن تكون مشابهة للطول المرجعي.ومع ذلك، تكرر النماذج أيضا عدة مرات نفس الكلمة لزيادة طول الجملة.
تستخدم المقاييس التلقائية عادة كأداة حصرية للإعلان عن تفوق نوعية نظام ترجمة جهاز واحد على آخر. الاختيار المجتمعي من توجيهات البحث التلقائي للأدلة والتطورات الصناعية عن طريق تحديد النماذج التي تعتبر أفضل. كان تقييم ارتباطات المقاييس مع مجموعات من الأح كام البشرية محدودة بحجم هذه المجموعات. في هذه الورقة، نؤكد كيف تناقض مقاييس الموثوق بها في الأحكام الإنسانية - على حد علمنا - أكبر مجموعة من الأحكام المبلغ عنها في الأدب. يمكن القول إن تصنيفات الزوجية من أنظمتين هي المهام التقييم الأكثر شيوعا في سيناريوهات البحث أو النشر. أخذ الحكم البشري كمعيار ذهبي، فإننا نحص على ما يقسمه أعلى دقة في التنبؤ بتصنيفات جودة الترجمة لمثل هذا أزواج النظام. علاوة على ذلك، نقوم بتقييم أداء مقاييس مختلفة عبر أزواج ومجال بلغات مختلفة. وأخيرا، نوضح أن الاستخدام الوحيد لبليو يعيق تطوير النماذج المحسنة المؤدية إلى قرارات النشر السيئة. نفرج عن مجموعة من الأحكام الإنسانية الإنسانية على مستوى الجملة 2.3 مليون ل 4380 أنظمة لمزيد من التحليل وتكرار عملنا.
Semeval هو المكان الرئيسي في مجتمع NLP لاقتراح التحديات الجديدة والتقييم التجريبي المنهجي لأنظمة NLP.توفر هذه الورقة تحليلا قياسيا منهيا لسيميفال تهدف إلى الأدلة على أنماط المساهمات وراء Semeval.من خلال فهم توزيع أنواع المهام والمقاييس والبنية والمشا ركة والاقتباسات مع مرور الوقت نهدف إلى الإجابة على السؤال حول ما يجري تقييمه من قبل Semeval.
لا يزال تقييم التلخيص مشكلة بحث مفتوحة: من المعروف أن المقاييس الحالية مثل الحمر محدودة وربطها بشكل سيء بأحكام بشرية.لتخفيف هذه المسألة، اقترحت العمل الحديث مقاييس التقييم التي تعتمد على الأسئلة في الإجابة على النماذج لتقييم ما إذا كان الملخص يحتوي ع لى جميع المعلومات ذات الصلة في وثيقتها المصدر.على الرغم من الواعدة، إلا أن النهج المقترحة فشلت حتى الآن في الارتباط بشكل أفضل من الحمر بأحكام بشرية.في هذه الورقة، نقدم النهج السابقة واقتراح إطار موحد، يدعى Questeval.على عكس مقاييس ثابتة مثل Rouge أو Bertscore، لا يتطلب Questeval أي مرجع حقيقي في الحقيقة.ومع ذلك، فإن Questeval يحسن بشكل كبير من الارتباط بالأحكام البشرية على أربع أبعاد تقييم (الاتساق والتماسك والطلاقة والأهمية)، كما هو مبين في تجارب واسعة النطاق.
يعد تقييم جيل اللغة الطبيعي (NLG) مهمة متعددة الأوجه تتطلب تقييم معايير متعددة المرغوبة، على سبيل المثال، الطلاقة، والاستماس، والتغطية، والأهمية، والكفاية، والجودة الكلية، وما إلى ذلك عبر مجموعات البيانات الحالية لمدة 6 مهام NLG، نلاحظ أن درجات التقي يم البشري في هذه المعايير المتعددة غالبا ما لا يرتبط. على سبيل المثال، هناك ارتباط منخفض للغاية بين الدرجات البشرية على تغطية الطلاقة والبيانات لمهمة البيانات المنظمة إلى جيل النص. يشير هذا إلى أن الوصفة الحالية لاقتراح مقاييس تقييم تلقائية جديدة ل NLG من خلال إظهار أنها ترتبط بشكل جيد مع الدرجات التي حددها البشر لمعايير واحدة (الجودة الشاملة) وحدها غير كافية. في الواقع، فإن دراستنا الواسعة التي تنطوي على 25 مقيط تقييم تلقائي عبر 6 مهام مختلفة و 18 معايير تقييم مختلفة تظهر أنه لا يوجد متري واحد يرتبط جيدا بدرجات بشرية على جميع المعايير المرغوبة، لمعظم مهام NLG. بالنظر إلى هذا الوضع، نقترح قوائم المراجعة لتحسين تصميم وتقييم المقاييس التلقائية. نقوم بتصميم قوالب تستهدف معايير محددة (مثل التغطية) وإشراض الإنتاج بحيث تتأثر الجودة فقط على طول هذه المعايير المحددة (على سبيل المثال، قطرات التغطية). نظهر أن مقاييس التقييم الحالية ليست قوية ضد هذه الاضطرابات البسيطة ويعارضها في الدرجات المعينة من قبل البشر إلى الإخراج المضطرب. وبالتالي فإن القوالب المقترحة تسمح بتقييم جيد المحبوس لمقاييس التقييم التلقائي تعريض قيودها وسيسهل تصميم وتحليل وتقييم أفضل لهذه المقاييس. تتوفر قوالب ورمز لدينا في https://iitmnlp.github.io/evaleval/
غالبا ما يتم تقييم نماذج اللغة المستخدمة في التعرف على الكلام بشكل جوهري باستخدام حيرة في بيانات الاختبار أو غير مسبوق مع نظام التعرف على الكلام التلقائي (ASR). لا يرتبط التقييم السابق دائما بشكل جيد مع أداء ASR، في حين أن الأخير يمكن أن يكون محددا ل أنظمة ASR معينة. اقترح العمل الحديث لتقييم نماذج اللغة باستخدامها لتصنيف جمل الحقيقة الأرضية بين جمل مماثلة للالعناد الصوتي الناتج عن محول الدولة الدقيقة. مثل هذا التقييم هو افتراض أن الجمل التي تم إنشاؤها غير صحيحة لغويا. في هذه الورقة، وضعنا أولا هذا الافتراض موضع السؤال، ومراقبة أن الجمل التي تم إنشاؤها بدلا من ذلك قد تكون صحيحة في كثير من الأحيان لغويا عندما تختلف عن الحقيقة الأرضية بواسطة تحرير واحد فقط. ثانيا، أظهرنا أنه باستخدام بيرت متعددة اللغات، يمكننا تحقيق أداء أفضل من العمل السابق على مجموعات بيانات تبديل التعليمات البرمجية. تطبيقنا متاح علنا ​​على Github في https://github.com/sikfeng/language-modelling-for-code-Switching.
تعتمد العديد من مقاييس تقييم الترجمة الآلية الحديثة مثل Bertscore، Bleurt، Comet، Monotransquest أو xmovercore على نماذج لغة Black-Box.وبالتالي، من الصعب شرح سبب إرجاع هذه المقاييس درجات معينة.تعالج المهمة المشتركة Eval4NLP لهذا العام هذا التحدي من خ لال البحث عن طرق يمكن استخراجها من الدرجات ذات الأهمية التي ترتبط بشكل جيد مع التعليقات التوضيحية خطأ على مستوى الكلمات البشرية.في هذه الورقة نظهر أن المقاييس غير المزدئة التي تستند إلى TokenMatching يمكن أن توفر جوهرية مثل هذه الدرجات.يفسر النظام المقدم على أوجه التشابه في تضمين الكلمات السياقية المستخدمة لحساب (x) BertScore كأهمية ذات أهمية على مستوى الكلمة.
يقدم هذا العمل مجموعة متنوعة بسيطة لتقييم جودة الترجمة الآلية بناء على مجموعة من الرواية ومقاييس ثابتة.نقيم الفرقة باستخدام ارتباط لعشرات MQM القائم على الخبراء ورشة عمل WMT 2021 المقاييس.في كل من إعدادات المونولينغوية والصفرية القصيرة، نعرض تحسنا كب يرا في الأداء على مقاييس واحدة.في الإعدادات المتبادلة، نوضح أيضا أن نهج الفرع ينطبق جيدا على اللغات غير المرئية.علاوة على ذلك، نحدد خط أساس قوي خال من المرجعية التي تتفوق باستمرار على تدابير بلو واستخدامها بشكل شائع وتحسين أداء فرقنا بشكل كبير.
منذ فترة طويلة انتهت التقييم التلقائي الموثوق لأنظمة الحوار بموجب بيئة تفاعلية. تحتاج بيئة مثالية لتقييم أنظمة الحوار، المعروفة أيضا باسم اختبار Turing، إلى إشراك التفاعل البشري، وعادة ما تكون غير متناول تجارب واسعة النطاق. على الرغم من أن الباحثين ق د حاولوا استخدام مقاييس مهام توليد اللغة (على سبيل المثال، الحيرة، بلو) أو بعض طرق التعزيز القائمة على الطراز (مثل تقييم التشغيل الذاتي) للتقييم التلقائي، إلا أن هذه الطرق تظهر فقط ارتباط ضعيف للغاية مع التقييم البشري الفعلي في التمرين. لكسر هذه الفجوة، نقترح إطارا جديدا يدعى لغز لتقدير درجات التقييم البشرية بناء على التقدم الأخير للتقييم خارج السياسات في التعلم التعزيز. يتطلب Enigma فقط حفنة من بيانات الخبرة التي تم جمعها مسبقا، وبالتالي لا تنطوي على تفاعل بشري مع السياسة المستهدفة أثناء التقييم، مما يجعل التقييمات التلقائية الممكنة. والأهم من ذلك أن Enigma هو خال من النموذج والأذرع لسياسات السلوك لجمع بيانات الخبرة، مما يخفف بشكل كبير الصعوبات التقنية في بيئات الحوار المعقدة النمذجة والسلوكيات البشرية. تظهر تجاربنا أن لغز تتفوق بشكل كبير على الأساليب الحالية من حيث الارتباط مع درجات التقييم البشري.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا