ترغب بنشر مسار تعليمي؟ اضغط هنا

على الانهيار الانتباه المحول نحو رتابة

On Biasing Transformer Attention Towards Monotonicity

257   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد العديد من المهام التسلسلية للتسلسل في معالجة اللغات الطبيعية رتيبة تقريبا في المحاذاة بين المصدر وتسلسل المستهدف، وقد سهل العمل السابق أو إنفاذ سلوك الانتباه الرعبي عبر وظائف الاهتمام المتخصص أو المحاكمة.في هذا العمل، نقدم وظيفة خسارة رتابة متوافقة مع آليات الاهتمام القياسية واختبارها في العديد من المهام التسلسلية للتسلسل: تحويل Grapheme-to-funeme، انعطاف مورفولوجي، والترجمة، وتطبيع اللهجة.تظهر التجارب أننا نستطيع تحقيق سلوك رتيب إلى حد كبير.يتم خلط الأداء، مع مكاسب أكبر على رأس خطوط الأساس RNN.ومع ذلك، فإن عام الرتابة العامة لا يفيد اهتمام محول متعدد الشعر، ومع ذلك، فإننا نرى تحسينات معزولة عندما تكون مجموعة فرعية فقط من الرؤوس منحازة نحو السلوك الرتيب.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذا العمل، نقوم بإجراء تحقيق شامل على إحدى المركزيات من أنظمة الترجمة الآلية الحديثة: آلية اهتمام مفوض الترم التشفير.بدافع من مفهوم محاذاة الدرجة الأولى، فإننا نقدم آلية الاهتمام (الصليب) من خلال اتصال متكرر، مما يسمح بالوصول المباشر إلى قرارات ال انتباه / المحاذاة السابقة.نقترح عدة طرق لتضمين مثل هذا التكرار في آلية الاهتمام.التحقق من أدائها عبر مهام ترجمة مختلفة نستنتج أن هذه الملحقات والتبعية ليست مفيدة لأداء الترجمة من بنية المحولات.
اجتذبت التعلم الذاتي الإشراف مؤخرا اهتماما كبيرا في مجتمع NLP لقدرته على تعلم الميزات التمييزية باستخدام هدف بسيط.تحقق هذه الورقة التي تحقق ما إذا كان التعلم مناقصة يمكن تمديده لإيلاء اهتمام Transfomer لمعالجة تحدي مخطط Winograd.تحقيقا لهذه الغاية، ن قترح إطارا جديدا للإشراف على الذات، حيث يستحق خسارة صغيرة مباشرة على مستوى اهتمام الذات.يوضح التحليل التجريبي للنماذج التي تعتمد انتباهنا على مجموعات بيانات متعددة إمكانيات التفكير في المنطقية.يتفوق النهج المقترح على جميع النهج القابلة للمقارنة غير الخاضعة للرقابة مع تجاوز الأشرار في بعض الأحيان.
في الآونة الأخيرة، جادل بأن نماذج تشفير التشفير يمكن أن تكون أكثر تفسيرا عن طريق استبدال وظيفة SoftMax بالاهتمام بمتغيراتها المتناقضة. في هذا العمل، نقدم رواية، وسيلة بسيطة لتحقيق Sparsity في الانتباه: استبدلنا تنشيط SoftMax مع Relu، وإظهار أن Sparsi ty يخرج بشكل طبيعي من مثل هذه الصياغة. يتم تحقيق استقرار التدريب بطبقة تطبيع إما إما بتهفية متخصصة أو وظيفة Gating إضافية. إن نموذجنا، الذي نسميه الاهتمام الخطي المعتمد (RELA)، سهل التنفيذ وأكثر كفاءة من آليات الاهتمام المتناقش سابقا سابقا. نحن نطبق RELLA إلى المحولات وإجراء تجارب على خمس مهام ترجمة آلية. recra تحقق أداء الترجمة مماثل للعديد من خطوط الأساس القوية، مع سرعة التدريب وتشكيل سرعة مماثلة للاهتمام الفانيليا. يوضح تحليلنا أن RELLA تقدم معدل مرتفع للغاية وتنوع الرأس، والاهتمام الصافي الناجم عن تحقيق دقة أفضل فيما يتعلق بمحاذاة الكلمة المستهدفة المصدر من النماذج القائمة على Softmax مؤخرا. تتعلم رؤساء RELA بشكل فعال أيضا حضور أي شيء (I.E. أطفئ ") لبعض الاستفسارات، وهو أمر غير ممكن مع بدائل Softmax Sparsified.
الأساليب القائمة على المحولات جذابة لتصنيف النص متعدد اللغات، ولكن معايير البحوث الشائعة مثل XNLI (Conneau et al.، 2018) لا تعكس توافر البيانات ومجموعة واسعة من تطبيقات الصناعة.نقدم مقارنة تجريبية من نماذج تصنيف النص المستند إلى المحولات في مجموعة مت نوعة من إعدادات الاحتياطية وغير اللغوية المتعددة اللغات والضبط.نقيم هذه الأساليب على مهمتين متميزتين في خمس لغات مختلفة.المغادرة من العمل السابق، تظهر نتائجنا أن نماذج لغة متعددة اللغات يمكن أن تتفوق على تلك المهام المطردة في بعض المهام المصب واللغات المستهدفة.نوضح بالإضافة إلى ذلك أن التعديلات العملية مثل المهام وعمالة العمل التكيفية والتكييف يمكن أن تحسن أداء التصنيف دون الحاجة إلى بيانات إضافية إضافية.
يظهر مطابقة الطبقة الوسيطة كهدوث فعال لتحسين تقطير المعرفة (KD). ومع ذلك، تنطبق هذه التقنية مطابقة في المساحات المخفية لشبكتين مختلفتين (أي طالب ومدرس)، والتي تفتقر إلى التفسير الواضح. علاوة على ذلك، لا يمكن للطبقة المتوسطة KD التعامل بسهولة مع مشاكل أخرى مثل البحث عن تعيين الطبقة وعدم عدم تطابق الهندسة المعمارية (أي أن المعلم والطالب ليكون من نفس النوع النموذجي). لمعالجة المشاكل المذكورة أعلاه، نقترح عالمي دينار كويتي لمطابقة الطبقات الوسيطة من المعلم والطالب في مساحة الإخراج (عن طريق إضافة مصنفات زائفة على الطبقات المتوسطة) عبر إسقاط الطبقة المستندة إلى الاهتمام. من خلال القيام بذلك، يتمتع نهجنا الموحد بثلاث مزايا: (1) يمكن دمجها بمرونة مع تقنيات تقطير الطبقة المتوسطة الحالية لتحسين نتائجها (2) يمكن نشر مصنفات الزائفة من المعلم بدلا من شبكات مساعد المعلم باهظة الثمن مشكلة فجوة القدرة في KD وهي مشكلة شائعة عندما تصبح الفجوة بين حجم المعلم وشبكات الطلاب كبيرة جدا؛ (3) يمكن استخدامه في الطبقة الوسيطة عبر الهندسة الوسطى دينار كويتي. لقد قمنا بتجارب شاملة في تقطير Bert-Base في Bert-4، Roberta-Large في Distilroberta وقاعدة Bert-Base في نماذج CNN و LSTM. تظهر النتائج على مهام الغراء أن نهجنا قادر على تفوق تقنيات KD الأخرى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا