ترغب بنشر مسار تعليمي؟ اضغط هنا

كيف تعميم نماذج التسلسل العصبي؟العظة المحلية والعالمية للتنبؤ خارج التوزيع

How Do Neural Sequence Models Generalize? Local and Global Cues for Out-of-Distribution Prediction

273   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

بعد أن يواجه نموذج التسلسل العصبي رمزية غير متوقعة، هل يمكن التنبؤ بسلوكه؟ نظهر أن نماذج Language RNN وحول المحولات تعرض تعميم مهيكلا متسقا في سياقات خارج التوزيع. نبدأ بإدخال نماذجين مثالية من التعميم في التنبؤ التالي بالكلمة التالية: نموذج سياق معجمي يعمل فيه التعميم يتفق مع الكلمة الأخيرة الملاحظة، ونموذج السياق النحامي الذي يتوافق فيه التعميم مع الهيكل العالمي للمدخلات. في تجارب باللغة الإنجليزية والفنلندية والماندرين ولغات منتظمة عشوائية، نوضح أن نماذج اللغة العصبية محبط بين هذين الشكلين من التعميم: تنبؤاتها تقارب جيدا من خلال مزيج خطي من التوزيعات التنبؤية المعجمية والنوعية. ثم نوضح ذلك، في بعض اللغات، يتوسط الضوضاء شكلين التعميم: الضوضاء المطبقة على رموز المدخلات تشجع التعميم النحوي، في حين أن الضوضاء في تمثيلات التاريخ تشجع التعميم المعجمي. أخيرا، نقدم شرحا نظريا أوليا لهذه النتائج من خلال إثبات أن سلوك الاستيفاء الملحوظ متوقع في النماذج الخطية من السجل مع هيكل ارتباط ميزة معينة. تساعد هذه النتائج في تفسير فعالية خططيتين تنظيمي شعبيتين وإظهار أن جوانب تعميم نموذج التسلسل يمكن فهمها والسيطر عليها.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبحت نماذج لغة كبيرة مسببة الاحترام باستخدام بنية الشبكة العصبية المحولات هي منهجية مهيمنة للعديد من مهام معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة، تصنيف النص، غموض معنى الكلمة، إكمال النص والترجمة الآلية. عادة ما تضم ​​مئات الملايين من المعلم ات، فإن هذه النماذج تقدم أداء حديثة، ولكن على حساب قابلية الترجمة الشفوية. آلية الاهتمام هي العنصر الرئيسي لشبكات المحولات. نقوم بتقديم Attviz، وهي طريقة لاستكشاف اهتمام الذات في شبكات المحولات، والتي يمكن أن تساعد في تفسير وتصحيح الأخطاء من النماذج المدربة من خلال إظهار الجمعيات بين الرموز النصية في تسلسل الإدخال. نظهر أن خطوط أنابيب التعلم العميق الحالية يمكن استكشافها مع Attviz، والذي يوفر تصورات رواية لرؤوس الانتباه وتجميعها. نفذنا الأساليب المقترحة في مجموعة أدوات عبر الإنترنت ومكتبة دون اتصال. باستخدام أمثلة من تحليل الأخبار، نوضح كيف يمكن استخدام ATVIZ للتفتيش والحدوث على فهم أفضل ما تعلمه النموذج.
أظهرت الدراسات الحديثة أن نظام التحيز في نظام اقتراحات Thetext يمكن أن ينشر في كتابة المشروع.في هذه الدراسة التجريبية، نطلب من TheQuestion: كيف يتفاعل الناس مع نماذج الإشراطات النصية النصية، في Inline Next Threase Sugges-Tion واجهة وكيفية إدخال تحيز Senti-Ment في نموذج تنبؤ النص يؤثر على الكتابة؟نقدم دراسة تجريبية كخطوة غير مؤهلة للإجابة على هذا السؤال.
يحقق المحولات مسبقا أداء ملحوظا عند التدريب وبيانات الاختبار من نفس التوزيع. ومع ذلك، في سيناريوهات العالم الحقيقي، غالبا ما يواجه النموذج حالات خارج التوزيع (OOD) التي يمكن أن تسبب مشاكل شديدة التحول الدلالي في وقت الاستدلال. لذلك، في الممارسة العمل ية، يجب على نموذج موثوق أن يحدد هذه الحالات، ثم رفضها أثناء الاستدلال أو نقلها إلى النماذج التي تتعامل مع توزيع آخر. في هذه الورقة، نقوم بتطوير طريقة اكتشاف OOD غير مزودة بها، حيث يتم استخدام البيانات الموجودة في التوزيع فقط في التدريب. نقترح أن يلزم المحولات بفقدان مقنعين، مما يحسن من إيصال التمثيلات، بحيث يمكن التمييز بين مثيلات OOD بشكل أفضل عن المعرف. يمكن بعد ذلك اكتشاف هذه الحالات OOD بدقة باستخدام مسافة Mahalanobis في الطبقة السابقة للاشمئزاز. نقوم بتجربة إعدادات شاملة وتحقيق أداء الكشف عن المسؤولية المثالية تقريبا، وتفوق خطوط الأساس بشكل كبير. نحن مزيد من التحقيق في المناولة وراء التحسن، مما يجد أن المزيد من التمثيلات المدمجة من خلال التعلم المتعاقل الذي يعتمد على الهامش يجلب التحسن. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
في حين أن الشبكات العصبية موجودة في كل مكان من المحللين الدلالي الحديث، فقد تبين أن معظم النماذج القياسية تعاني من خسائر أداء مثيرة عند مواجهة بيانات تكوين خارج التوزيع (OOD).في الآونة الأخيرة، تم اقتراح العديد من الطرق لتحسين التعميم التركيبي في الت حليل الدلالي.في هذا العمل، نركز بدلا من ذلك على مشكلة الكشف عن أمثلة تكوين OOD مع المحللين الدلالي العصبي، والتي لم يتم التحقيق فيها من قبل.نحن نحقق في العديد من الطرق القوية ولكنها بسيطة للكشف عن ood بناء على عدم اليقين التنبؤية.توضح النتائج التجريبية أن هذه التقنيات تؤدي بشكل جيد في الفحص القياسي ومجموعات بيانات CFQ.علاوة على ذلك، نوضح أنه يمكن تحسين اكتشاف OOD باستخدام مجموعة غير متجانسة.
تكتسب توضيحات اللغة الطبيعية (NL) من التنبؤات النموذجية شعبية كوسيلة لفهم القرارات والتحقق منها من قبل النماذج المدربة مسبقا كبيرة من الصندوق الأسود، للمهام مثل الإجابة على الأسئلة (QA) والتحقق من الحقائق. مؤخرا، أثبتت التسلسل المدرب مسبقا إلى نماذج التسلسل (SEQ2SEQ) أن تكون فعالة للغاية في اتخاذ التنبؤ المشترك، بالإضافة إلى توليد تفسيرات NL. ومع ذلك، هذه النماذج لديها العديد من أوجه القصور؛ يمكنهم تصنيع توضيحات حتى بالنسبة للتنبؤات غير الصحيحة، فمن الصعب التكيف مع مستندات الإدخال الطويلة، وتتدرب تدريبها كمية كبيرة من البيانات المسمى. في هذه الورقة، نطور FID-EX، والتي تعالج هذه العيوب لنماذج SEQ2SeQ بقلم: 1) إدخال علامات جملة للقضاء على تلفيق التفسير من خلال تشجيع الجيل الاستخراجي، 2) باستخدام بنية الانصهار في وحدة فك التشفير للتعامل مع سياقات الإدخال الطويلة، و 3) توسيط الصغار على ضبط مجموعات بيانات QA المجال المفتوحة المهيكلة لتحسين أداء القليل من الطلقات. تحسن FID-السابقين بشكل كبير على العمل السابق من حيث مقاييس التفسير ودقة المهام على خمس مهام من المعيار لشرح الممحاة في كل من إعدادات الإشراف بالكامل وعدد القليلة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا