ترغب بنشر مسار تعليمي؟ اضغط هنا

تحليل جيد الحبيبات من bertscore

A Fine-Grained Analysis of BERTScore

665   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

BertScore، متري التلقائي المقترح مؤخرا لجودة الترجمة الآلية، تستخدم بيرت، نموذج لغة كبير مدرب مسبقا لتقييم ترجمات المرشحين فيما يتعلق بالترجمة الذهبية. الاستفادة من قدرات بيرت الدلالية والنزالية، تسعى BertScore إلى تجنب عيوب النهج السابقة مثل بلو، بدلا من ذلك تسجيل ترجمات المرشحين بناء على تشابههم الدلالي لحكم الذهب. ومع ذلك، بيرت ليست معصومة؛ في حين أن أدائها في مهام NLP، حددت حالة من الفن الجديد بشكل عام، فقد أظهرت دراسات ذات ظواهر النحوية والدلية المحددة أين ينحرف أداء بيرت عن حالة البشر بشكل عام. هذا يثير بشكل طبيعي الأسئلة التي نعالجها في هذه الورقة: ما هي نقاط القوة والضعف في BertScore؟ هل يرتبطون بالضعف المعروفين من جانب بيرت؟ نجد أنه في حين أن BertScore يمكن أن يكتشف عندما يختلف المرشح عن مرجع في كلمات محتوى مهمة، فهو أقل حساسية للأخطاء الأصغر، خاصة إذا كان المرشح مشابه بشكل جذري أو بشكل مصمم مرجع.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

التغطية الواسعة التي تعني تعني التمثيلات في NLP التركيز في الغالب على المحتوى المعبر عنه صراحة. والأهم من ذلك أن ندرة مجموعات البيانات التلقائية للأدوار الضمنية المتنوعة يحد من الدراسات التجريبية في الدقوق اللغوي. على سبيل المثال، في مراجعة الويب خدم ة رائعة! ''، المزود والمستهلك حجج ضمنية لأنواع مختلفة. نحن ندرس وجعة مشروحة من الحجج الضمنية الضمنية الجميلة (CUI و Hershcovich، 2020) من خلال إعادة النظر في ذلك بعناية، وحل العديد من التناقضات. في وقت لاحق، نقدم أول محلل عصبي يستند إلى الانتقال يمكن أن يتعامل مع الحجج الضمنية بشكل حيوي، وتجربة نظاميين انتقالين مختلفين على مجموعة بيانات محسنة. نجد أن أنواع معينة من الوسائط الضمنية أكثر صعوبة من غيرها من غيرها وأن النظام الأكثر دقة أكثر دقة في استرداد الوسائط الضمنية، على الرغم من وجود نقاط تحليل إجمالية أقل، مما يشهد قيود التفكير الحالية لنماذج NLP. سيسهل هذا العمل فهم أفضل للغة الضمنية والكشفية، من خلال دمجها بشكل كلي في تمثيلات المعنى.
تركز أساليب تصنيف النص الحالية أساسا على مجموعة تسمية ثابتة، في حين أن العديد من التطبيقات في العالم الحقيقي تتطلب تمديد فئات جديدة من الرباعي حيث يزيد عدد العينات لكل علامة. لاستيعاب هذه المتطلبات، نقدم مشكلة جديدة تسمى تصنيف الحبيبات الخشنة إلى الد قيقة، والتي تهدف إلى أداء تصنيف جيد الحبيبات على البيانات المشروحة بشكل خشن. بدلا من طلب التعليقات التوضيحية البشرية المحبوبة الجديدة، فإننا نقوم باختيار الاستفادة من أسماء السطح التسمية باعتبارها الإرشادات البشرية الوحيدة والنسج في نماذج لغوية غنية مدربة مسبقا في استراتيجية الإشراف الضعيفة المتكررة. على وجه التحديد، نقترح أولا صياغة صياغة دقيقة مشروطة على التسمية لتحريك هذه المولدات لمهمتنا. علاوة على ذلك، نركض هدف تنظيمي بناء على قيود العلامات الجميلة الخشنة المستمدة من إعداد مشكلتنا، مما يتيح لنا المزيد من التحسينات على الصيغة السابقة. يستخدم إطار عملنا النماذج الإدارية التي تم ضبطها بشكل جيد لعينة بيانات التدريب الزائفة لتدريب المصنف، و BootStraps على البيانات الحقيقية غير المسبقة لتحسين النموذج. تجارب واسعة دراسات حالة عن مجموعات بيانات عالمية في العالم الحقيقي تثبت أداء فائقا فوق خطوط خطوط تصنيف Sota-Shot-Shot.
على الرغم من نجاح أنظمة الحوار العصبي في تحقيق أداء عال في مجلس الإدارة، لا يمكنهم تلبية متطلبات المستخدمين في الممارسة العملية، بسبب ضعف مهارات المنطق. السبب الأساسي هو أن معظم نماذج الحوار العصبي تلتقط فقط المعلومات النحوية والدلية، ولكنها تفشل في نموذج الاتساق المنطقي بين محفوظات الحوار والاستجابة الناتجة. في الآونة الأخيرة، تم اقتراح مهمة حوار جديدة متعددة الدوران، لتسهيل أبحاث التفكير الحوار. ومع ذلك، هذه المهمة صعبة، لأن هناك اختلافات طفيفة فقط بين الاستجابة غير المنطقية وتاريخ الحوار. كيفية حل هذا التحدي فعال لا يزال يستحق الاستكشاف. تقترح هذه الورقة نموذج مقارنة غرامة (FCM) لمعالجة هذه المشكلة. مستوحاة من سلوك الإنسان في فهم القراءة، يقترح تركيز آلية المقارنة على الاختلافات الجميلة في تمثيل كل مرشح استجابة. على وجه التحديد، يتم مقارنة كل تمثيل مرشح بالسجل بأكمله للحصول على تمثيل تناسق التاريخ. علاوة على ذلك، تعتبر إشارات الاتساق بين كل مرشح وتاريخ مكبر الصوت في قيادة نموذج يفضل مرشحا متسقا منطقيا مع منطق تاريخ المتكلم. أخيرا، يتم توظيف تمثيلات الاتساق أعلاه لإخراج قائمة التصنيفات من ردود المرشحين لتفويض الحوار متعدد الدوران. النتائج التجريبية على مجموعة بيانات الحوار العامة تظهر أن طريقتنا تحصل على درجات أعلى تصنيف من النماذج الأساسية.
أظهرت أنظمة الكشف عن اللغة المسيئة الحالية التحيز غير المقصود تجاه ميزات حساسة مثل الجنسية أو الجنس. هذه قضية حاسمة، والتي قد تؤذي الأقليات والجماعات الممثلة تمثيلا ناقصا إذا تم دمج هذه الأنظمة في تطبيقات العالم الحقيقي. في هذه الورقة، نقوم بإنشاء اخ تبارات مخصصة من خلال أداة قائمة المراجعة (Ribeiro et al.، 2020) للكشف عن التحيزات داخل مصنفات اللغة المسيئة للغة الإنجليزية. نقارن سلوك نماذج استنادتين في بيرت، واحد مدرب على مجموعة بيانات الكلام الكراهية العامة والآخر في مجموعة بيانات للكشف عن الحرج. يوضح تقييمنا أنه على الرغم من أن المصنفات القائمة على بيرت تحقق مستويات عالية الدقة على مجموعة متنوعة من مهام معالجة اللغة الطبيعية، فإنها تؤدي بشكل سيء للغاية فيما يتعلق بالإنصاف والتحيز، لا سيما بشأن العينات التي تنطوي على الصور النمطية الضمنية، وتعبيرات عن الكراهية نحو الأقليات والسمات المحمية كما العرق أو الميل الجنسي. نطلق سراح كل من أجهزة الكمبيوتر المحمولة المنفذة لتوسيع اختبارات الإنصاف ومجموعات البيانات الاصطناعية التي يمكن استخدامها لتقييم تنظيم الأنظمة بشكل مستقل عن قائمة المراجعة.
دفعت الشبكات العصبية العميقة باستمرار الأداء الحديث في معالجة اللغة الطبيعية ويعتبر نهج النمذجة في الواقع في حل مهام NLP المعقدة مثل الترجمة الآلية والتلخيص والرد على السؤال. على الرغم من الفعالية المثبتة للشبكات العصبية العميقة، فإن معرضهم هو سبب رئ يسي للقلق. في هذا البرنامج التعليمي، سنقدم أعمال البحث في تفسير مكونات الرواية الدقيقة لطراز الشبكة العصبية من وجهات نظر، ط) ترجمة التفسير الدقيقة، والثاني) تحليل السببية. السابق هو فئة من الأساليب لتحليل الخلايا العصبية فيما يتعلق بمفهوم اللغة المطلوب أو مهمة. تدرس الأخير دور الخلايا العصبية وميزات المدخلات في شرح القرارات التي اتخذها النموذج. سنناقش أيضا كيف يمكن لأساليب التفسير وتحليل السببية الاتصال بتثبيته بشكل أفضل لتنبؤ النموذج. أخيرا، سوف نسير إليك من خلال مجموعة أدوات مختلفة تسهل تحليل التفسير والسبابة الراسخة من النماذج العصبية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا