حققت الطرز المستندة إلى المحولات مثل Bert و Xlnet و XLM-R أداء أحدث في مختلف مهام NLP بما في ذلك تحديد اللغة الهجومية وخطاب الكراهية، وهي مشكلة مهمة في وسائل التواصل الاجتماعي.في هذه الورقة، نقدم Fbert، إعادة تدريب نموذج BERT على الصلبة، أكبر كوربوس
لتحديد اللغة الإنجليزية الهجومية المتاحة مع أكثر من 1.4 مليون حالة هجومية.نقيم أداء Fbert الخاص بتحديد المحتوى الهجومي على مجموعات بيانات باللغة الإنجليزية المتعددة ونختبر عدة عتبات لاختيار المثيلات من الصلبة.سيتم توفير نموذج FberT بحرية للمجتمع.
نماذج لغة محول كبيرة مدربة مسبقا، والتي تكون منتشرة في مهام معالجة اللغة الطبيعية، تكون مكلفة للغاية للتدريب. لتقليل تكلفة التدريب هذه النماذج الكبيرة، طورت العمل السابق طرزا أصغر وأكثر ضغطا تحقق تسريعا كبيرا في وقت التدريب مع الحفاظ على دقة تنافسية
للنموذج الأصلي على مهام المصب. على الرغم من أن هذه النماذج الصغيرة المدربة مسبقا تم اعتمادها على نطاق واسع من قبل المجتمع، إلا أنه ليس معروفا مدى جودة معايرة مقارنة بنظيراتهم الأكبر. في هذه الورقة، مع التركيز على مجموعة واسعة من المهام، يمكننا التحقيق بدقة في خصائص المعايرة للمحولات المدربين مسبقا، كدالة لحجمها. نوضح أنه عند تقييم النماذج داخل المجال، تكون النماذج الصغيرة قادرة على تحقيق معايرة تنافسية وغالبا ما تكون أفضل، مقارنة بالنماذج الكبيرة، مع تحقيق تسريع كبير في وقت التدريب. تقنيات المعايرة بعد المخصص تقلل من خطأ المعايرة لجميع النماذج في المجال. ومع ذلك، عند تقييم النماذج الكبيرة التي تم تقييمها، تميل النماذج الكبيرة إلى أن تكون معايرة أفضل، وتعويض التسمية بدلا من ذلك استراتيجية فعالة لمعايرة النماذج في هذا الإعداد.
النمذجة المتنقلة المتسلسلة قوية هي مهمة أساسية في العالم الحقيقي حيث تكون المدخلات صاخبة في كثير من الأحيان. تحتوي المدخلات التي تم إنشاؤها عن المستخدمين والآلة على أنواع مختلفة من الضوضاء في شكل أخطاء إملائية، والأخطاء النحوية، وأخطاء التعرف على الأ
حرف، والتي تؤثر على مهام المصب وتأثر على الترجمة الشفوية للنصوص. في هذا العمل، نرتند بنية جديدة للتسلسل إلى التسلسل للكشف عن وتصحيح مختلف العالم الحقيقي والضوضاء الاصطناعية (هجمات الخصومة) من النصوص الإنجليزية. نحو ذلك اقترحنا بنية فك التشفير المعدلة التي تعتمد على المحولات التي تستخدم آلية Gating للكشف عن أنواع التصحيحات المطلوبة وبناء على تصحيح النصوص. تظهر النتائج التجريبية أن الهندسة المعمارية المصورة لدينا مع نماذج لغوية مدربة مسبقا تؤدي بشكل أفضل بشكل كبير إلى أن النظيرات غير الدائرين ونماذج تصحيح الأخطاء الأخرى غير المدرجة في تصحيح الأخطاء الإملائية والحدائية. التقييم الخارجي لنموذجنا على الترجمة الآلية (MT) ومهام التلخيص تظهر الأداء التنافسي للنموذج مقابل نماذج تسلسل تسلسل أخرى أخرى تحت المدخلات الصاخبة.
نماذج المحولات هي التقليب equivariant.لتزويد الطلب واكتب معلومات الرموز المميزة والإدخال، عادة ما تتم إضافتها إلى المدخلات.تعمل الأعمال الأخيرة الاختلافات المقترحة من الترميزات الموضعية مع ترميزات الموضع النسبي تحقيق أداء أفضل.يوضح تحليلنا أن المكسب
يأتي في الواقع من نقل المعلومات الموضعية إلى طبقة الاهتمام من المدخلات.بدافع من ذلك، نقدم اهتماما ممتما مطردا للمحولات (النظام الغذائي)، وهي آلية بسيطة ولكنها فعالة لتشفير معلومات الموقف والقطاع في نماذج المحولات.تتمتع الطريقة المقترحة بتدريب ووقت الاستدلال بشكل أسرع، مع تحقيق أداء تنافسي في معايير الغراء وإكستريم و WMT.نحن نعتبر أكثر تعميم طريقتنا للمحولات الطويلة المدى وإظهار مكاسب الأداء.
إن تضمين الموضع النسبي (RPE) هو طريقة ناجحة لتشفير معلومات موقف مركزية وفعالة في نماذج المحولات.في هذه الورقة، نحقق في المشكلات المحتملة في Shaw-RPE و XL-RPE، والتي تعد أكثر من الممثلين والجلوب السائدة، واقتراح اثنين من روبيس رواية تسمى RPE الخشنة ال
خشنة الرفيعة المستوى الرفيع المستوى (LFHC)Gaussian وظيفة التوزيع التراكمي (GCDF) RPE.LFHC-RPE هو تحسن شو-RPE، مما يعزز قدرة التصور على المناصب النسبية المتوسطة والطويلة.تستخدم GCDF-RPE الخصائص الممتازة لوظيفة Gaussian لتعديل آلية الترميز السابقة في XL-RPE.النتائج التجريبية على تسعة مجموعات بيانات موثوقة تظهر فعالية أساليبنا تجريبيا.علاوة على ذلك، تحقق GCDF-RPE أفضل الأداء العام بين خمسة RPES مختلفة.
يقترح هذا العمل تحليلا مكثفا للهندسة المعمارية المحول في إعداد الترجمة الآلية العصبية (NMT).مع التركيز على آلية اهتمام التشفير في فك التشفير، نثبت أن أوزان الاهتمام بانتظام أخطاء المحاذاة من خلال الاعتماد بشكل أساسي على الرموز غير المصنفة من تسلسل ال
مصدر.ومع ذلك، نلاحظ أن نماذج NMT تخصص الاهتمام بهؤلاء الرموز لتنظيم المساهمة في التنبؤ بالسياقتين المصدرين وبادئة التسلسل المستهدف.نحن نقدم دليلا على تأثير محاذاة خاطئة على السلوك النموذجي، مما يدل على أن آلية اهتمام فك تشفير التشفير مفاجأة بشكل جيد كطريقة الترجمة الترجمة الترجمة الشخصية ل NMT.أخيرا، استنادا إلى تحليلنا، نقترح طرق تقلل إلى حد كبير معدل خطأ محاذاة الكلمة مقارنة بالمحاذاة المستحثة القياسية من أوزان الاهتمام.
أصبحت بنية المحولات في كل مكان في مجال معالجة اللغات الطبيعية.لتفسير النماذج القائمة على المحولات، تم تحليل أنماط اهتمامها على نطاق واسع.ومع ذلك، فإن بنية المحولات لا تتكون فقط من الاهتمام متعدد الأطراف؛يمكن أن تسهم مكونات أخرى أيضا في الأداء التدريج
ي المحولات.في هذه الدراسة، مددنا نطاق تحليل المحولات من أنماط الانتباه فقط إلى كتلة الاهتمام بأكمله، أي اهتمام متعدد الأطراف، والاتصال المتبقي، وتطبيع الطبقة.يوضح تحليل النماذج اللغوية المقصودة للمحولات أن التفاعل الرمزي إلى الرمز المميز الذي يؤديه عن طريق الاهتمام له تأثير أقل على التمثيل الوسيط مما كان مفترض سابقا.توفر هذه النتائج تفسيرات جديدة بديهية للتقارير القائمة؛على سبيل المثال، تم تجاهل أنماط الانتباه المستفادة لا تؤثر سلبا على الأداء.رموز تجاربنا متاحة للجمهور.
على الرغم من التطورات الأخيرة في تطبيق نماذج اللغة المدربة مسبقا لتوليد نصوص عالية الجودة، فإن توليد مقاطع طويلة تحافظ على تماسك طويل المدى أمر صعب للغاية لهذه النماذج.في هذه الورقة، نقترح Discodvt، وهو محول متغيرات منفصلة على درايته لمعالجة مشكلة عد
م الاتساق.يتعلم Discodvt تسلسل متغير منفصل يلخص الهيكل العالمي للنص، ثم ينطبق عليه لتوجيه عملية التوليد في كل خطوة فك التشفير.لزيادة تضمين المعلومات التي تدرك الخطاب في التمثيلات الكامنة المنفصلة، نقدم هدف إضافي لنموذج علاقات الخطاب داخل النص.نقوم بإجراء تجارب واسعة على مجموعة من مجموعات بيانات من القصة المفتوحة وإثبات أن الرموز الكامنة تعلم مراسلات ذات معنى لهياكل الخطاب التي توجه النموذج لتوليد النصوص الطويلة مع التماسك طويل المدى أفضل.
التدريب نماذج لغة كبيرة يمكن أن تستهلك كمية كبيرة من الطاقة.نفترض أن تكوين نموذج اللغة يؤثر على استهلاكها في مجال الطاقة، وأن هناك مجالا لتحسين استهلاك الطاقة في نماذج اللغة الكبيرة الحديثة.للتحقيق في هذه المطالبات، نقدم عامل استهلاك الطاقة في الوظيف
ة الموضوعية، واستكشاف مجموعة النماذج وتكوينات HyperParameter التي تؤثر على الطاقة.نحدد عوامل تكوين متعددة يمكن أن تقلل من استهلاك الطاقة أثناء التدريب على نموذج اللغة مع الحفاظ على جودة النموذج.
يتم تدريب نماذج اللغة بشكل عام على تسلسل المدخلات القصيرة والمتقطعة، والتي تحد من قدرتها على استخدام معلومات مستوى الخطاب الموجودة في سياق طويل المدى لتحسين تنبؤاتها. أدت الجهود الأخيرة لتحسين كفاءة اهتمام الذات إلى انتشار نماذج لغة محول طويلة المدى،
والتي يمكن أن تعالج تسلسل أطول بكثير من نماذج الماضي. ومع ذلك، تبقى الطرق التي تستفيد منها هذه النماذج من السياق الطويل المدى غير واضح. في هذه الورقة، نقوم بإجراء تحليل جيد الحبيبات من طرازات لغة محول طويلة المدى (بما في ذلك محول التوجيه، والذي يحقق حيرة من الفن الحيرة على مجموعة بيانات BG-19 المتسلسلة LM Transmark) التي تقبل المدخلات تسلسل يصل إلى 8K الرموز. نتائجنا تكشف عن توفير سياق طويل المدى (أي، خارج الرموز 2K السابقة) لهذه النماذج يحسن فقط تنبؤاتها على مجموعة صغيرة من الرموز (على سبيل المثال، تلك التي يمكن نسخها من السياق البعيد) ولا يساعد على الإطلاق لمهام التنبؤ على مستوى الجملة. أخيرا، نكتشف أن PG-19 تحتوي على مجموعة متنوعة من أنواع المستندات والمجالات المختلفة، وأن السياق الطويل المدى يساعد معظمها على الروايات الأدبية (بدلا من الكتب المدرسية أو المجلات).