ترغب بنشر مسار تعليمي؟ اضغط هنا

دا محول: محول عن بعد

DA-Transformer: Distance-aware Transformer

197   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حقق المحول نجاحا كبيرا في مجال NLP من خلال تأليف نماذج متقدمة مختلفة مثل Bert و GPT. ومع ذلك، قد لا تكون المحول ومتغيراتها الحالية هي الأمثل في التقاط مسافات رمزية لأن الموضع أو المدينات المسافة التي تستخدمها هذه الأساليب عادة لا يمكن أن تبقي المعلومات الدقيقة للمسافات الحقيقية، والتي قد لا تكون مفيدة لنمذجة أوامر وعلاقات السياقات. في هذه الورقة، نقترح Da-Transformer، وهو محول أدرك عن بعد يمكنه استغلال المسافة الحقيقية. نقترح دمج المسافات الحقيقية بين الرموز الرموز لإعادة توسيع نطاق أوزانات اهتمام الذات الخام، والتي يتم حسابها بأهمية استفسار الاهتمام والمفتاح. بشكل ملموس، يرأس نفس الاهتمام الذاتي مختلف المسافة النسبية بين كل زوج من الرموز المرجحة بواسطة معلمات مختلفة يمكن أن تتحكم في تفضيلات مختلفة على المعلومات الطويلة أو قصيرة الأجل من هذه الرؤوس. نظرا لأن المسافات الحقيقية المرجحة الخام قد لا تكون مثالية لضبط أوزان الاهتمام الذاتي، فإننا نقترح وظيفة Sigomoid ذاتيا في تعيينها في معاملات إعادة التحجيم التي لها نطاقات مناسبة. نحن نقطع لأوزان اهتمام الذات الخام أولا عبر وظيفة RELU للحفاظ على عدم السلبية وإدخال Sparsity، ثم اضربها مع معاملات إعادة التحجيم لترميز معلومات حقيقية عن مسافة عن بعد. تظهر تجارب واسعة على خمسة مجموعات بيانات قياسية أن DA-Transformer يمكن أن يحسن بشكل فعال أداء العديد من المهام وتفوق محول الفانيليا وعدة من المتغيرات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

على الرغم من التطورات الأخيرة في تطبيق نماذج اللغة المدربة مسبقا لتوليد نصوص عالية الجودة، فإن توليد مقاطع طويلة تحافظ على تماسك طويل المدى أمر صعب للغاية لهذه النماذج.في هذه الورقة، نقترح Discodvt، وهو محول متغيرات منفصلة على درايته لمعالجة مشكلة عد م الاتساق.يتعلم Discodvt تسلسل متغير منفصل يلخص الهيكل العالمي للنص، ثم ينطبق عليه لتوجيه عملية التوليد في كل خطوة فك التشفير.لزيادة تضمين المعلومات التي تدرك الخطاب في التمثيلات الكامنة المنفصلة، نقدم هدف إضافي لنموذج علاقات الخطاب داخل النص.نقوم بإجراء تجارب واسعة على مجموعة من مجموعات بيانات من القصة المفتوحة وإثبات أن الرموز الكامنة تعلم مراسلات ذات معنى لهياكل الخطاب التي توجه النموذج لتوليد النصوص الطويلة مع التماسك طويل المدى أفضل.
يحدد اختيار استراتيجية مشاركة المعلمات في نماذج الترجمة الآلية متعددة اللغات مدى استخدام مساحة المعلمة الأمثلة، وبالتالي، تؤثر مباشرة على جودة الترجمة النهائية.وقد اقترح مؤخرا مختارة من الأشجار اللغوية التي تظهر درجة الرعاية بين اللغات المختلفة، كما تم اقتراح النهج العام الجديد لمشاركة المعلمة في الترجمة متعددة اللغات في الترجمة متعددة اللغات.تتمثل الفكرة الرئيسية في استخدام هذه التسلسلات الهرمية لغوية الخبراء كأساس للهندسة المعمارية متعددة اللغات: كلما زادت اللغتين، كلما زاد عدد المعلمات التي يشاركونها.في هذا العمل، نختبر هذه الفكرة باستخدام بنية المحولات وإظهار أنه على الرغم من النجاح في العمل السابق هناك مشاكل متأصلة لتدريب هذه النماذج الهرمية.نوضح أنه في حالة اتباع استراتيجية التدريب المختارة بعناية، يمكن للهندسة الهيكل الهرمية تفوق النماذج ثنائية اللغة ونماذج متعددة اللغات مع مشاركة المعلمات الكاملة.
تعد تحليل التمثيل المعنى التجريدي مهمة التنبؤ بالسجن إلى الرسم حيث لا تتماشى العقد المستهدفة بشكل صريح إلى رموز الجملة. ومع ذلك، نظرا لأن عقد الرسوم البيانية تستند بشكل دلون على أساس واحد أو أكثر من رموز الجملة، يمكن استخلاص المحاذاة الضمنية. تعمل ال محللون المستقلون على الانتقال عبر الجملة من اليسار إلى اليمين، والتقاط هذا التحيز الاستقرائي عبر المحاذاة بتكلفة التعبير المحدود. في هذا العمل، نقترح نظام يستند إلى الانتقال الذي يجمع بين الصعب على الجمل مع آلية مؤشر الإجراءات ذات الجانب المستهدف لتحديد الرموز المصدر من تمثيلات العقدة ومحاذاة العناوين. نقوم بالنماذج التحولات وكذلك آلية المؤشر من خلال تعديلات واضحة داخل بنية محول واحدة. يتم تشفير معلومات هيكل الدولة ومحلل الرسم البياني بكفاءة باستخدام رؤوس الانتباه. نظظ أن نهج مؤشر العمل لدينا يؤدي إلى زيادة التعبير عن التعبير والكتابة مكاسب كبيرة (+1.6 نقطة) مقابل أفضل محلل عمرو على الانتقال في ظروف مماثلة للغاية. أثناء استخدام أي رسوم إعادة التصنيف الرسم البياني، فإن طرازنا الفردي ينتج عنه ثاني أفضل نقاط Smatch في AMR 2.0 (81.8)، والذي تم تحسينه إلى 83.4 مع بيانات الفضة والكشف عن الفرم.
تستكشف هذه الورقة متغيرا من أساليب جيلات العناوين التلقائية، حيث يلزم وجود عنوان تم إنشاؤه لتضمين عبارة معينة مثل الشركة أو اسم المنتج. الأساليب السابقة باستخدام النماذج القائمة على المحولات تولد عنوانا يتضمن عبارة معينة من خلال توفير التشفير مع معلو مات إضافية مقابلة العبارة المحددة. ومع ذلك، لا يمكن أن تتضمن هذه الأساليب دائما العبارة في العنوان الذي تم إنشاؤه. مستوحاة من الأساليب السابقة القائمة على RNN توليد تسلسل رمزي في الاتجاهات الخلفية والأمام من العبارة المعينة، نقترح طريقة بسيطة قائمة على المحولات التي تضمن تضمين العبارة المحددة في العنوان الرفيع الناتج عن الجودة. ونحن ننظر أيضا في استراتيجية توليد عنوان جديدة تستفيد من ترتيب الجيل القابل للتحكم في المحولات. توضح تجاربنا مع Corpus الأخبار اليابانية أن أساليبنا، التي تضمن إدراج العبارة في العنوان الرئيسي، وتحقيق درجات Rouge مماثلة للأساليب السابقة القائمة على المحولات. نوضح أيضا أن استراتيجية توليدنا تؤدي أفضل من الاستراتيجيات السابقة.
حققت الطرز المستندة إلى المحولات مثل Bert و Xlnet و XLM-R أداء أحدث في مختلف مهام NLP بما في ذلك تحديد اللغة الهجومية وخطاب الكراهية، وهي مشكلة مهمة في وسائل التواصل الاجتماعي.في هذه الورقة، نقدم Fbert، إعادة تدريب نموذج BERT على الصلبة، أكبر كوربوس لتحديد اللغة الإنجليزية الهجومية المتاحة مع أكثر من 1.4 مليون حالة هجومية.نقيم أداء Fbert الخاص بتحديد المحتوى الهجومي على مجموعات بيانات باللغة الإنجليزية المتعددة ونختبر عدة عتبات لاختيار المثيلات من الصلبة.سيتم توفير نموذج FberT بحرية للمجتمع.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا