ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم متانة نماذج اللغة العصبية لإجراء الاضطرابات المدخلات

Evaluating the Robustness of Neural Language Models to Input Perturbations

387   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حصلت نماذج اللغة العصبية عالية الأداء على نتائج أحدث النتائج على مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، غالبا ما لا تعكس نتائج البيانات القياسية المشتركة الموثوقية النموذجية والمتانة عند تطبيقها على بيانات صاخبة عالمية حقيقية. في هذه الدراسة، نقوم بتصميم وتنفيذ أنواع مختلفة من أساليب الاضطرابات على مستوى الأحرف ومستوى الكلمة لمحاكاة السيناريوهات الواقعية التي قد تكون فيها نصوص الإدخال صاخبة قليلا أو مختلفة عن توزيع البيانات التي تم تدريبها على أنظمة NLP عليها. إجراء تجارب شاملة على مهام NLP المختلفة، فإننا نبحث في قدرة نماذج اللغة العالية الأداء مثل Bert و Xlnet و Roberta و ELMO في التعامل مع أنواع مختلفة من اضطرابات الإدخال. تشير النتائج إلى أن نماذج اللغة حساسة للاضطرابات الإدخال ويمكن أن تنخفض أدائها حتى عند تقديم تغييرات صغيرة. نسلط الضوء على هذه النماذج تحتاج إلى مزيد من المحسن وأن المعايير الحالية لا تعكس متانة النموذج جيدا. نقول أن التقييمات بشأن المدخلات المضطربة يجب أن تكمل المعايير المستخدمة بشكل روتيني من أجل تحقيق فهم أكثر واقعية لمتانة أنظمة NLP.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

غالبا ما يتم تحديد موكب النموذج إلى التحيز من خلال التعميم على مجموعات البيانات الخارجية المصممة بعناية.أساليب الدخل الحديثة في فهم اللغة الطبيعية (NLU) تحسين الأداء على مجموعات البيانات هذه عن طريق الضغط على النماذج في تحقيق تنبؤات غير متحيزة.الافتر اض الأساسي وراء هذه الأساليب هو أن هذا يؤدي أيضا إلى اكتشاف ميزات أكثر قوة في التمثيلات الداخلية للنموذج.نقترح إطارا عاما يستند إلى التحقيق العامة يسمح بتفسير ما بعد الهوك للتحيزات في طرازات اللغة، واستخدام نهج نظرية معلومات لقياس قابلية استخراج بعض التحيزات من تمثيلات النموذج.نقوم بتجربة العديد من مجموعات بيانات NLU والتحيزات المعروفة، وتظهر ذلك، مضادا بشكل حدسي، كلما دفع نموذج لغة أكثر نحو نظام ديبي، فإن التحيز الأكثر ترميزا بالفعل في تمثيلاته الداخلية.
غالبا ما يستخدم البشر استخدام اللغة التصويرية في التواصل، بما في ذلك أثناء التفاعلات مع أنظمة الحوار. وبالتالي، من المهم أن تكون أنظمة الحوار في العالم الحقيقي لتتمكن من التعامل مع اللغة التصويرية الشعبية تشبه الاستعارة والاشتراك. في هذا العمل، نقوم بتحليل أداء نماذج الحوار الموجودة في المواقف التي يعرضها سياق مربع حوار المدخلات استخدام اللغة التصويرية. نلاحظ فجوات كبيرة في التعامل مع اللغة التصويرية عند تقييم النماذج في مجموعات بيانات حوار المجال المفتوحة. عند مواجهة سياقات الحوار تتكون من لغة مجازية، تظهر بعض النماذج قطرات كبيرة جدا في الأداء مقارنة بالسياقات دون لغة مجازية. نحن نشجع البحث في المستقبل في نمذجة الحوار إلى التحليل بشكل منفصل وتقرير النتائج على اللغة المجازية من أجل تحسين قدرات النماذج بشكل أفضل من استخدام العالم الحقيقي. أخيرا، نقترح حلول خفيفة الوزن لمساعدة النماذج الحالية على أن تصبح النماذج الحالية أكثر قوة في اللغة التصويرية ببساطة عن طريق استخدام مورد خارجي لترجمة اللغة التصويرية إلى النماذج الحرفية (غير المجازة) مع الحفاظ على معنى أكبر قدر ممكن من الأصفار.
تستخدم أساليب الرالف على نطاق واسع لتفسير تنبؤات الشبكة العصبية، ولكن غالبا ما تعارض أساليب أنواع مختلفة من الأساليب المختلفة حتى في تفسيرات نفس التنبؤ الذي أدلى به نفس النموذج. في هذه الحالات، كيف يمكننا تحديد متى تكون هذه التفسيرات جديرة بالثقة بما يكفي لاستخدامها في التحليلات؟ لمعالجة هذا السؤال، نقوم بإجراء تقييم شامل وكمي لأساليب الرالف في فئة أساسية من نماذج NLP: نماذج اللغة العصبية. نقيم جودة تفسيرات التنبؤ من وجهات نظر اثنين يمثل كل منها خاصية مرغوبة لهذه التفسيرات: المعقولية والإخلاص. يتم إجراء تقييمنا على أربع مجموعات بيانات مختلفة تم بناؤها من الشرح البشري الحالي للاتفاقات النحوية واللالسة، على مستوى الحكم على مستوى الحكم والوثائق. من خلال تقييمنا، حددنا طرق مختلفة من الطرق التي يمكن أن تسفر عن تفسيرات ذات جودة منخفضة. نوصي بأن ينشر العمل المستقبلي لنشر هذه الأساليب إلى نماذج اللغة العصبية صحة تفسيراتها بعناية قبل رسم رؤى.
في حين أن تمثيل اللغة المستندة إلى المتجهات من النماذج اللغوية المحددة قد حددت معيارا جديدا للعديد من مهام NLP، إلا أنه ليس هناك حساب كامل لأعمالهم الداخلية. على وجه الخصوص، ليس من الواضح تماما ما يتم التقاط جوانب بناء جملة مستوى الجملة من خلال هذه ا لتمثيلات، ولا (إذا كان على الإطلاق) بنيت على طول الطبقات المكدسة من الشبكة. في هذه الورقة، نهدف إلى معالجة هذه الأسئلة مع فئة عامة من التحليلات المستندة إلى اضطرابات التدخل، والإدخال المستندة إلى الإدخال من النماذج اللغوية المحددة مسبقا. استيراد من علم الأعصاب الحسابي والمعرفي فكرة الثابتة التمثيلية، نقوم بإجراء سلسلة من المجسات المصممة لاختبار حساسية هذه التمثيلات لعدة أنواع الهيكل في الجمل. ينطوي كل مسبار على تبديل الكلمات في جملة ومقارنة التمثيلات من الجمل المضطربة ضد الأصل. نقوم بتجربة ثلاثة اضطرابات مختلفة: (1) تصامح عشوائية من نجمات N-Gram من عرض متفاوت، لاختبار النطاق الذي يمثل التمثيل حساسا لهذا المنصب؛ (2) تبديل اثنين من الأمور التي تفعل أو لا تشكل عبارة نصية، لاختبار الحساسية بنية العبارة العالمية؛ و (3) تبديل كلمات اثنين المجاورة التي تفعل أو لا تفكر عبارة نصية، لاختبار الحساسية بنية العبارة المحلية. تشير النتائج من هذه التحقيقات بشكل جماعي إلى أن المحولات تبني حساسية أجزاء أكبر من الجملة على طول طبقاتها، وأن هيكل العبارة الهرمية يلعب دورا في هذه العملية. على نطاق أوسع نطاقا، تشير نتائجنا أيضا إلى أن اضطرابات الإدخال المهيكلة تتسع نطاق التحليلات التي يمكن تنفيذها في أنظمة التعلم العميقة في كثير من الأحيان، ويمكن أن تكون بمثابة مكمل للأدوات الحالية (مثل التحقيقات الخطية الخاضعة للإشراف) لتفسير الصندوق الأسود المعقدة عارضات ازياء.
أظهرت LMS المدربة مسبقا أداء مثير للإعجاب على مهام NLP المصب، لكننا لم ننشئ بعد فهم واضح للتطور عندما يتعلق الأمر بمعالجة المعلومات والاحتفاظ بها وتطبيقها المقدمة في مدخلاتها. في هذه الورقة، نتعامل مع مكون من هذه المسألة من خلال دراسة قدرة النماذج عل ى نشر معلومات السياق ذات الصلة في مواجهة مشتت المحتوى. نقدم نماذج مع مهام كتين تتطلب استخدام معلومات السياق النقدي، وإدخال محتوى مشتت لاختبار مدى احتفاظ النماذج بقوة واستخدام هذه المعلومات الهامة للتنبؤ بها. نحن أيضا التلاعب بشكل منهجي بطبيعة هؤلاء الملذات، لإلقاء الضوء على ديناميات استخدام النماذج من العظة السياقية. نجد أنه على الرغم من أن النماذج تظهر في سياقات بسيطة لجعل التنبؤات بناء على فهم الحقائق ذات الصلة وتطبيقها من السياق المسبق، فإن وجود محتوى مشتت ولكنه غير ذي صرف له تأثير واضح في التنبؤات النموذجية المربكة. على وجه الخصوص، تظهر النماذج عرضة بشكل خاص لعوامل التشابه الدلالي وموقف كلمة. تتسق النتائج مع استنتاج مفادها أن تنبؤات LM مدفوعة بجزء كبير من العظة السياقية السطحية، وليس عن طريق تمثيلات قوية لمعنى السياق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا