ترغب بنشر مسار تعليمي؟ اضغط هنا

نظرة عامة على معايرة عدم اليقين لتصنيف النص ودور التقطير

An Overview of Uncertainty Calibration for Text Classification and the Role of Distillation

443   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حقق التطورات الحديثة في أنظمة NLP، ولا سيما النموذج الاحتياطي والأصلون، نجاحا كبيرا في الدقة التنبؤية. ومع ذلك، عادة ما لا يتم معايرة هذه الأنظمة بشكل جيد بسبب عدم اليقين خارج الصندوق. تم اقتراح العديد من طرق إعادة المعاير في الأدبيات لتحديد حالة عدم اليقين التنبؤية ونواتج النماذج المعايرة، بدرجات متفاوتة من التعقيد. في هذا العمل، نقدم دراسة منهجية لبعض هذه الأساليب. التركيز على مهمة تصنيف النص ونماذج اللغة الكبيرة المسبقة مسبقا، نظرا لأول مرة أن العديد من النماذج الفعلية غير معايرت بشكل جيد خارج المربع، خاصة عندما تأتي البيانات من إعدادات خارج المجال. بعد ذلك، قارنا فعالية بعض أساليب إعادة المعايير المستخدمة على نطاق واسع (مثل الكفرات، تحجيم درجة الحرارة). بعد ذلك، نوضح تجريبيا اتصالا بين التقطير والمعايرة. نعتبر تقطير مصطلح تنظيمي يشجع نموذج الطالب على إخراج الشكوك التي تتناسب مع نموذج المعلمين. بهذه البصيرة، نطور أساليب إعادة المعايير البسيطة القائمة على التقطير دون أي تكلفة إضافية لاستنتاج الاستدلال. نظهر على معيار الغراء أن أساليبنا البسيطة يمكن أن تحقق أداء المعايرة المنافسة خارج المجال (OOD) W.R.T. مناهج أكثر تكلفة. أخيرا، ندرج ablations لفهم فائدة مكونات أسلوبنا المقترح وفحص قابلية نقل المعايرة عبر التقطير.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

كشف الجانب هو مهمة أساسية في التعدين في الرأي.تستخدم الأشغال السابقة كلمات البذور إما كعظمون من نماذج الموضوع، كمراسين لتوجيه تعلم الجوانب، أو كميزات من صفوف الأنفاق.تقدم هذه الورقة طريقة رواية متشرفة ضعيفة لاستغلال كلمات البذور للكشف عن الجانب بناء على بنية تشفير.شرائح خرائط التشفير والجوانب في مساحة تضمين منخفضة الأبعاد.الهدف هو تقريب التشابه بين القطاعات والجوانب في مساحة التضمين وإشطاه الحقيقة الأرضية الناتجة عن كلمات البذور.ويقترح وظيفة موضوعية للقبض على عدم اليقين في التشابه الأساسي للحقيقة.الطريقة التي تتفوقها على العمل السابق على العديد من المعايير في المجالات المختلفة.
توفر هذه الورقة لمحة عامة عن مهمة تصنيف سياق Citted Citted 2021 3c.تم تنظيم الطبعة الثانية من المهمة المشتركة كجزء من ورشة العمل الثانية بشأن معالجة الوثائق العلمية (SDP 2021).تتكون المهمة من اثنين من المهام الفرعية: تصنيف الاستشهادات بناء على الغرض (فرعي أ) تأثير (فرعي ب) تأثير.كما هو الحال في العام السابق، استضافت كلا المهام على Kaggle واستخدم جزءا من بيانات ACT الجديدة.شارك ما مجموعه 22 فريقا في المراكب الفرعية أ، و 19 فريقا تنافس في المراكب الفرعية ب. تم احتلال جميع الأنظمة المشاركة في المرتبة على أساس ماكرو F-Score.تم الإبلاغ عن أعلى درجات من 0.26973 و 0.60025 عن التركيب الفرعي A و B على التوالي.
البيانات بشكل عام ترميز التحيزات البشرية بشكل افتراضي؛ إن إدراك هذه بداية جيدة، والبحث حول كيفية التعامل معها مستمر. يتم استخدام مصطلح التحيز على نطاق واسع في سياقات مختلفة في أنظمة NLP. في بحثنا، يكون التركيز محددا للتحيزات مثل النوع الاجتماعي والعن صرية والدين والوجهات الديمغرافية وغيرها من الآراء عند التحيزات التي تسود في أنظمة معالجة النصوص مسؤولة عن تمييز السكان المحددين بشكل منهجي، وهي ليست أخلاقية في NLP. تؤدي هذه التحيزات إلى تفاقم عدم المساواة والتنوع وإدراج السكان المحددين أثناء الاستفادة من تطبيقات NLP. تستخدم الأدوات والتكنولوجيا على المستوى المتوسط ​​بيانات متحيزة، ونقل أو تضخيم هذا التحيز إلى تطبيقات المصب. ومع ذلك، لا يكفي أن تكون كافية، محايدة بين الجنسين وحدها عند تصميم تكنولوجيا غير متحيزة - بدلا من ذلك، يجب أن نأخذ جهدا واعيا من خلال تصميم إطار موحد لقياس وتحيز التحيز. في هذه الورقة، نوصي بستة تدابير وقياس زيادة واحدة بناء على ملاحظات التحيز في البيانات والشروح والتمثيلات النصية وتقنيات الدخل.
تقدم هذه الورقة نتائج المهام المشتركة من ورشة العمل الثامنة حول الترجمة الآسيوية (WAT2021).بالنسبة إلى Wat2021، شارك 28 فريقا في المهام المشتركة وتقديم 24 فريقا نتائج ترجمةهم للتقييم البشري.كما قبلنا أيضا 5 أوراق بحثية.تم تقديم حوالي 2،100 نتائج ترجم ة إلى خادم التقييم التلقائي، وتم تقييم التقديمات المختارة يدويا.
في هذه الورقة، نقدم المهمة المشتركة ESPR4NLP-2021 على تقدير الجودة القادم.بالنظر إلى زوج ترجمة من المصدر، فإن هذه المهمة المشتركة لا تتطلب فقط توفير درجة على مستوى الجملة تشير إلى الجودة الشاملة للترجمة، ولكن أيضا لشرح هذه النقاط عن طريق تحديد الكلما ت التي تؤثر سلبا على جودة الترجمة.نقدم البيانات وإرشادات التوضيحية وإعداد تقييم المهمة المشتركة، وصف النظم الستة المشاركة وتحليل النتائج.إلى حد ما من معرفتنا، هذه هي المهمة المشتركة الأولى على مقاييس تقييم NLP القابلة للتفسير.تتوفر مجموعات البيانات والنتائج في https://github.com/eval4nlp/sharedtask2021.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا