ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم أساليب الرافية لنماذج اللغة العصبية

Evaluating Saliency Methods for Neural Language Models

337   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تستخدم أساليب الرالف على نطاق واسع لتفسير تنبؤات الشبكة العصبية، ولكن غالبا ما تعارض أساليب أنواع مختلفة من الأساليب المختلفة حتى في تفسيرات نفس التنبؤ الذي أدلى به نفس النموذج. في هذه الحالات، كيف يمكننا تحديد متى تكون هذه التفسيرات جديرة بالثقة بما يكفي لاستخدامها في التحليلات؟ لمعالجة هذا السؤال، نقوم بإجراء تقييم شامل وكمي لأساليب الرالف في فئة أساسية من نماذج NLP: نماذج اللغة العصبية. نقيم جودة تفسيرات التنبؤ من وجهات نظر اثنين يمثل كل منها خاصية مرغوبة لهذه التفسيرات: المعقولية والإخلاص. يتم إجراء تقييمنا على أربع مجموعات بيانات مختلفة تم بناؤها من الشرح البشري الحالي للاتفاقات النحوية واللالسة، على مستوى الحكم على مستوى الحكم والوثائق. من خلال تقييمنا، حددنا طرق مختلفة من الطرق التي يمكن أن تسفر عن تفسيرات ذات جودة منخفضة. نوصي بأن ينشر العمل المستقبلي لنشر هذه الأساليب إلى نماذج اللغة العصبية صحة تفسيراتها بعناية قبل رسم رؤى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

حصلت نماذج اللغة العصبية عالية الأداء على نتائج أحدث النتائج على مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، غالبا ما لا تعكس نتائج البيانات القياسية المشتركة الموثوقية النموذجية والمتانة عند تطبيقها على بيانات صاخبة عالمية حقيقية. في هذه الدراسة، نقوم بتصميم وتنفيذ أنواع مختلفة من أساليب الاضطرابات على مستوى الأحرف ومستوى الكلمة لمحاكاة السيناريوهات الواقعية التي قد تكون فيها نصوص الإدخال صاخبة قليلا أو مختلفة عن توزيع البيانات التي تم تدريبها على أنظمة NLP عليها. إجراء تجارب شاملة على مهام NLP المختلفة، فإننا نبحث في قدرة نماذج اللغة العالية الأداء مثل Bert و Xlnet و Roberta و ELMO في التعامل مع أنواع مختلفة من اضطرابات الإدخال. تشير النتائج إلى أن نماذج اللغة حساسة للاضطرابات الإدخال ويمكن أن تنخفض أدائها حتى عند تقديم تغييرات صغيرة. نسلط الضوء على هذه النماذج تحتاج إلى مزيد من المحسن وأن المعايير الحالية لا تعكس متانة النموذج جيدا. نقول أن التقييمات بشأن المدخلات المضطربة يجب أن تكمل المعايير المستخدمة بشكل روتيني من أجل تحقيق فهم أكثر واقعية لمتانة أنظمة NLP.
تأخذ هذه الورقة خطوة أولى نحو مناهج تفكير حرجة لنماذج اللغة التراجعية العصبية. نقدم لجنة اصطناعية من الحجج الصالحة تخصيصها، وتوليد نصوص جدلية اصطناعية لتدريب CRPIPT: محول تفكير حرج مدرب مسبقا مسبقا على أساس GPT-2. يمكن ملاحظة تأثيرات تعليمية نقل كبير ة: مدربة على ثلاث مخططات أساسية بسيطة، يكمل CRIPT بدقة استنتاجات مختلفة من أنواع الحجج المختلفة والمزيد. تعميم CRIPT مع مخططات الوسيطة الأساسية بطريقة صحيحة. علاوة على ذلك، نحصل على نتائج متسقة واعدة لمعايير NLU. على وجه الخصوص، تتجاوز دقة Cript الصفرية في تشخيص الغراء أداء GPT-2 بنسبة 15 نقطة مئوية. تشير النتائج إلى أن التدريب المسترد الوسيط على النصوص التي تجسد قدرات التفكير الأساسي (مثل مغطاة عادة في كتب التفكير الناقد) قد تساعد نماذج اللغة للحصول على مجموعة واسعة من مهارات المنطق. النصوص المنحجية الاصطناعية المقدمة في هذه الورقة هي نقطة انطلاق واعدة لبناء مناهج التفكير النقدي لنماذج اللغة. "
استخدام البيانات من اختبارات المرنة الإنجليزية، والتي أبلغت فيها المواضيع ذاتها الذاتي عن جنسهن وعمرها والتعليم والعرق، ندرس اختلافات الأداء في نماذج اللغة المحددة مسبقا عبر المجموعات الديموغرافية، والتي تحددها هذه الصفات (المحمية).نوضح ثغرات أداء وا سعة عبر الفئات الديموغرافية وإظهار أن نماذج اللغة المسبقة مسبقا تكافح المتحدثين ذكور الشباب غير الأبيض؛على سبيل المثال، لا تعلم نماذج اللغة المحددة مسبقا تعلم التحيزات الاجتماعية (الجمعيات النمطية) - تعلم النماذج اللغوية المحددة أيضا التحيزات الاجتماعية، وتعلم التحدث أكثر شيئين أكثر من مثل الآخرين.ومع ذلك، نوضح أنه، باستثناء نماذج بيرت، تخفض نماذج اللغة الأكبر المحددة مسبقا بعض فجوات الأداء بين الأغلبية والأقليات.
وصف النظم التي طورها مجلس البحوث القومي كندا للمهمة المشتركة لتحديد اللغة اليوراليك في حملة التقييم الفاديم 2021.قمنا بتقييم طريقتين مختلفتين لهذه المهمة: مصنف احتمالية استغلال حرف 5 غرامات فقط كميزات، وشبكة عصبية قائمة على الطابع مدربة مسبقا من خلال الإشراف الذاتي، ثم ضبطها على مهمة تحديد اللغة.تحولت الطريقة السابقة إلى أداء أفضل، مما يؤدي إلى الشك على فائدة أساليب التعلم العميق لتحديد اللغة، حيث لم يتمكنوا بعد بشكل مقنع وتفوقوا باستمرار على خوارزميات التصنيف أكثر بساطة وأقل تكلفة استغلال ميزات N-Gram.
طرق ناجحة للترجمة الآلية العصبية غير المنشأة (UNMT) توظف الاحتجاج عبر اللغات عبر الإشراف الذاتي، في كثير من الأحيان في شكل نمذجة لغة ملمقة أو مهمة توليد التسلسل، والتي تتطلب نموذج محاذاة التمثيلات المعجمية والفوضيةاللغتين.بينما يعمل الاحتجاج عبر اللغ ات اللغوي لغات مماثلة مع كوربورا وفيرة، فإنه يؤدي بشكل سيئ في اللغات المنخفضة والبستية.أظهرت الأبحاث السابقة أن هذا هو أن التمثيلات غير محاذاة بما فيه الكفاية.في هذه الورقة، نعزز نموذج اللغة الملثملة ثنائية اللغة بإحاطا بمعلومات على المستوى المعجمي باستخدام تضيير الكلمات الفرعية عبر مستوى المستوى.توضح النتائج التجريبية الأداء المحسن على حد سواء على نظام التعمير (ما يصل إلى 4.5 بلو) وتحليل المعجم الثنائي اللغة باستخدام طريقتنا مقارنة بناس خط الأساس.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا