إن محول نقل النص إلى النص الأخير "'(T5) عند الاستفادة من تنسيق نصي إلى نص موحد ومقياس لتحقيق النتائج الحديثة على مجموعة واسعة من مهام NLP باللغة الإنجليزية.في هذه الورقة، نقدم MT5، وهو متغير متعدد اللغات من T5 الذي تم تدريبه مسبقا على مجموعة بيانات جديدة تستند إلى الزواحف تغطي 101 لغات.نحن تفصل على التصميم والتدريب المعدل ل MT5 وإظهار أدائه من أحدث المعايير متعددة اللغات.وصف أيضا تقنية بسيطة لمنع الترجمة العرضية "في إعداد الطلقة الصفرية، حيث يختار طراز عام (جزئيا) تنبؤه بلغة خاطئة.جميع الكود ونقاط التفتيش النموذجية المستخدمة في هذا العمل متاحة للجمهور.
The recent Text-to-Text Transfer Transformer'' (T5) leveraged a unified text-to-text format and scale to attain state-of-the-art results on a wide variety of English-language NLP tasks. In this paper, we introduce mT5, a multilingual variant of T5 that was pre-trained on a new Common Crawl-based dataset covering 101 languages. We detail the design and modified training of mT5 and demonstrate its state-of-the-art performance on many multilingual benchmarks. We also describe a simple technique to prevent accidental translation'' in the zero-shot setting, where a generative model chooses to (partially) translate its prediction into the wrong language. All of the code and model checkpoints used in this work are publicly available.
المراجع المستخدمة
https://aclanthology.org/
تعدد اللغات T5 Pretrains نموذج تسلسل إلى تسلسل على نصوص أحادية الأبعاد ضخمة، والتي أظهرت نتائج واعدة على العديد من المهام المتبقية اللغوية.في هذه الورقة، نحسن محول نقل النص إلى النص متعدد اللغات مع أزواج الترجمة (MT6).على وجه التحديد، نستكشف ثلاثة مه
في الآونة الأخيرة، حقق نموذج لغوي كبير مدرب مسبقا يسمى T5 (محول نقل النصوص الموحد للنصوص) أداء حديثة في العديد من مهام NLP.ومع ذلك، لم يتم العثور على أي دراسة باستخدام هذا النموذج المدرب مسبقا على تبسيط النص.لذلك في هذه الورقة، نستكشف استخدام T5 Bric
نقدم COTEXT، وهو نموذج ترميز ترميز مدرب مسبقا مدرب مسبقا، يتعلم السياق التمثيلي بين اللغة الطبيعية (NL) ولغة البرمجة (PL). باستخدام الإشراف الذاتي، تم تدريب COTEX مسبقا على لغة البرمجة الكبيرة لشركة Corpora لتعلم فهم عام للغة والرمز. يدعم COTEXT مهام
تعني اعتمادنا المتزايد على تطبيقات الهاتف المحمول الكثير من اتصالاتنا بوساطة بدعم أنظمة النص التنبؤية.كيف تؤثر هذه الأنظمة على التواصل بين الأطراف الشخصية والمجتمع الأوسع؟في أي الطرق هي أنظمة النص التنبؤية ضارة، ولمن، ولماذا؟في هذه الورقة، نركز على أ
على الرغم من التطورات الأخيرة في تطبيق نماذج اللغة المدربة مسبقا لتوليد نصوص عالية الجودة، فإن توليد مقاطع طويلة تحافظ على تماسك طويل المدى أمر صعب للغاية لهذه النماذج.في هذه الورقة، نقترح Discodvt، وهو محول متغيرات منفصلة على درايته لمعالجة مشكلة عد