ترغب بنشر مسار تعليمي؟ اضغط هنا

كشف خارج التوزيع من غير مسبوق للمحولات المحددة

Contrastive Out-of-Distribution Detection for Pretrained Transformers

625   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يحقق المحولات مسبقا أداء ملحوظا عند التدريب وبيانات الاختبار من نفس التوزيع. ومع ذلك، في سيناريوهات العالم الحقيقي، غالبا ما يواجه النموذج حالات خارج التوزيع (OOD) التي يمكن أن تسبب مشاكل شديدة التحول الدلالي في وقت الاستدلال. لذلك، في الممارسة العملية، يجب على نموذج موثوق أن يحدد هذه الحالات، ثم رفضها أثناء الاستدلال أو نقلها إلى النماذج التي تتعامل مع توزيع آخر. في هذه الورقة، نقوم بتطوير طريقة اكتشاف OOD غير مزودة بها، حيث يتم استخدام البيانات الموجودة في التوزيع فقط في التدريب. نقترح أن يلزم المحولات بفقدان مقنعين، مما يحسن من إيصال التمثيلات، بحيث يمكن التمييز بين مثيلات OOD بشكل أفضل عن المعرف. يمكن بعد ذلك اكتشاف هذه الحالات OOD بدقة باستخدام مسافة Mahalanobis في الطبقة السابقة للاشمئزاز. نقوم بتجربة إعدادات شاملة وتحقيق أداء الكشف عن المسؤولية المثالية تقريبا، وتفوق خطوط الأساس بشكل كبير. نحن مزيد من التحقيق في المناولة وراء التحسن، مما يجد أن المزيد من التمثيلات المدمجة من خلال التعلم المتعاقل الذي يعتمد على الهامش يجلب التحسن. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في حين أن الشبكات العصبية موجودة في كل مكان من المحللين الدلالي الحديث، فقد تبين أن معظم النماذج القياسية تعاني من خسائر أداء مثيرة عند مواجهة بيانات تكوين خارج التوزيع (OOD).في الآونة الأخيرة، تم اقتراح العديد من الطرق لتحسين التعميم التركيبي في الت حليل الدلالي.في هذا العمل، نركز بدلا من ذلك على مشكلة الكشف عن أمثلة تكوين OOD مع المحللين الدلالي العصبي، والتي لم يتم التحقيق فيها من قبل.نحن نحقق في العديد من الطرق القوية ولكنها بسيطة للكشف عن ood بناء على عدم اليقين التنبؤية.توضح النتائج التجريبية أن هذه التقنيات تؤدي بشكل جيد في الفحص القياسي ومجموعات بيانات CFQ.علاوة على ذلك، نوضح أنه يمكن تحسين اكتشاف OOD باستخدام مجموعة غير متجانسة.
بعد أن يواجه نموذج التسلسل العصبي رمزية غير متوقعة، هل يمكن التنبؤ بسلوكه؟ نظهر أن نماذج Language RNN وحول المحولات تعرض تعميم مهيكلا متسقا في سياقات خارج التوزيع. نبدأ بإدخال نماذجين مثالية من التعميم في التنبؤ التالي بالكلمة التالية: نموذج سياق معج مي يعمل فيه التعميم يتفق مع الكلمة الأخيرة الملاحظة، ونموذج السياق النحامي الذي يتوافق فيه التعميم مع الهيكل العالمي للمدخلات. في تجارب باللغة الإنجليزية والفنلندية والماندرين ولغات منتظمة عشوائية، نوضح أن نماذج اللغة العصبية محبط بين هذين الشكلين من التعميم: تنبؤاتها تقارب جيدا من خلال مزيج خطي من التوزيعات التنبؤية المعجمية والنوعية. ثم نوضح ذلك، في بعض اللغات، يتوسط الضوضاء شكلين التعميم: الضوضاء المطبقة على رموز المدخلات تشجع التعميم النحوي، في حين أن الضوضاء في تمثيلات التاريخ تشجع التعميم المعجمي. أخيرا، نقدم شرحا نظريا أوليا لهذه النتائج من خلال إثبات أن سلوك الاستيفاء الملحوظ متوقع في النماذج الخطية من السجل مع هيكل ارتباط ميزة معينة. تساعد هذه النتائج في تفسير فعالية خططيتين تنظيمي شعبيتين وإظهار أن جوانب تعميم نموذج التسلسل يمكن فهمها والسيطر عليها.
نحن نصف نظامنا الذي تم تصنيفه في المرتبة الأولى في مهمة الكشف عن الكلام في الأمل (HSD) ورابعا في مهمة تشارك في الهجوم (OLI)، سواء في لغة التاميل.الهدف من HSD و OLI هو تحديد ما إذا كان تعليق أو منشور مختلط من التعليمات البرمجية يحتوي على خطاب نأمل أو محتوى مسيحي على التوالي.نقوم مسبقا بتدريب نموذج روبرتا المستندة إلى المحولات باستخدام البيانات المختلطة التي تم إنشاؤها بشكل عام واستخدامها في مجموعة جنبا إلى جنب مع نموذج Ulmfit المدرب مسبقا متاحا من Inltk.
اكتشاف النوايا الخارجية (OOD) أمر حاسم لنظام الحوار المنتشر الموجه نحو المهام.ستقوم أساليب الكشف عن OOD السابقة غير المعروضة فقط باستخراج الميزات التمييزية لمختلف النوايا داخل المجال، بينما يمكن للنظيرات الإشرافية التمييز مباشرة من النوايا OOD والمجا ل ولكنها تتطلب بيانات المسمى الواسعة.من أجل الجمع بين فوائد كلا النوعين، نقترح إطارا تعليميا مختلفا عن علم الذاتي لنموذج الميزات الدلالية التمييزية لكل من النوايا داخل المجال ومؤلبة OOD من البيانات غير المسبقة.علاوة على ذلك، نقدم وحدة عصبية عمومة خصصا لتحسين كفاءة وأغاني التعلم المقاوم للتناقض.تبين التجارب في مجموعات بيانات القياس العامة أن طريقتنا يمكن أن تفوق باستمرار على الأساس مع هامش مهم إحصائيا.
طرق ناجحة للترجمة الآلية العصبية غير المنشأة (UNMT) توظف الاحتجاج عبر اللغات عبر الإشراف الذاتي، في كثير من الأحيان في شكل نمذجة لغة ملمقة أو مهمة توليد التسلسل، والتي تتطلب نموذج محاذاة التمثيلات المعجمية والفوضيةاللغتين.بينما يعمل الاحتجاج عبر اللغ ات اللغوي لغات مماثلة مع كوربورا وفيرة، فإنه يؤدي بشكل سيئ في اللغات المنخفضة والبستية.أظهرت الأبحاث السابقة أن هذا هو أن التمثيلات غير محاذاة بما فيه الكفاية.في هذه الورقة، نعزز نموذج اللغة الملثملة ثنائية اللغة بإحاطا بمعلومات على المستوى المعجمي باستخدام تضيير الكلمات الفرعية عبر مستوى المستوى.توضح النتائج التجريبية الأداء المحسن على حد سواء على نظام التعمير (ما يصل إلى 4.5 بلو) وتحليل المعجم الثنائي اللغة باستخدام طريقتنا مقارنة بناس خط الأساس.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا