ترغب بنشر مسار تعليمي؟ اضغط هنا

نموذج اللغة المحاكمة ونقل التعلم لغات موارد منخفضة للغاية

Language Model Pretraining and Transfer Learning for Very Low Resource Languages

314   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة تقديمنا للمهمة المشتركة على MT غير المنشورة ومدونة منخفضة للغاية في WMT 2021. لقد قدمنا أنظمة لأزواجين لغتان: الألمانية ↔ Sorbian العلوي (DE ↔ HSB) والصوربي الألماني السفلي (DSB).ل De ↔ HSB، نحن نتأرجح بنظامنا باستخدام كتلة (تسلسل ملثمين للتسلسل) الهدف ثم Finetune باستخدام الترجمة الترجمة الترجمة الترجمة التكرارية.يتم تنفيذ Finetunng النهائي باستخدام البيانات المتوازية المقدمة لأهداف الترجمة.ل de ↔ DSB، لا يتم توفير بيانات متوازية في المهمة، نستخدم نموذج DEFS HSB النهائي كهيئة نموذج DSB وتدريبه على الترجمة الترجمة الترجمة المتكررة، باستخدام نفس المفردات كما هو مستخدم في de ↔ HSBنموذج.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح نهجا جديدا لتعلم تضمين الكلمات المتبادلة عبر السياق بناء على كائن مواز صغير (E.G. بضع مئات من أزواج الجملة). تتمتع طريقتنا بدمج الكلمات عبر نموذج فك تشفير LSTM يترجم في وقت واحد وإعادة بناء جملة مدخلات. من خلال تقاسم المعلمات النموذجية بين لغات مختلفة، يدرك نموذجنا بشكل مشترك كلمة تضمين الكلمة في مساحة شائعة تبادل اللغات. نقترح أيضا الجمع بين وظائف الكلمة والكلمات الفرعية للاستفادة من أوجه التشابه الهجري عبر لغات مختلفة. نحن نؤدي تجاربنا على بيانات العالم الحقيقي من اللغات المهددة بالانقراض، وهي يونغينغ نا، Shipibo-Konibo، و Griko. تجاربنا على تحيزي المعجم الثنائي اللغة ومهام محاذاة الكلمات تظهر أن نموذجنا يفوق على الأساليب الحالية من قبل هامش كبير لمعظم أزواج اللغات. توضح هذه النتائج أنه على خلاف المعتقد الشائع، فإن نموذج الترجمة المشترك - ترميز الترميز مفيد لتعلم التمثيلات المتبادلة حتى في ظروف الموارد المنخفضة للغاية. علاوة على ذلك، يعمل نموذجنا أيضا بشكل جيد في ظروف الموارد العالية، وتحقيق الأداء الحديث في مهمة محاذاة الكلمة باللغة الألمانية.
تصف هذه الورقة مشاركة فريق BSC في ترجمة الموارد المنخفضة لغات WMT2021 للمهمة المشتركة بين اللغات الهندية الأوروبية.يهدف النظام إلى حل التتبع الفرعي 2: مقالات التراث الثقافي ويكيبيديا، والتي تنطوي على الترجمة في أربع لغات رومانسية: الكاتالونية والإيطا لية والوكر والرومانية.النظام المقدم هو نموذج الترجمة شبه الإشراف متعدد اللغات.إنه يستند إلى نموذج لغة مدرب مسبقا، وهما XLM-Roberta، وهو ما يتم ضبطه في وقت لاحق مع البيانات الموازية التي تم الحصول عليها في الغالب من OPUS.على عكس الأعمال الأخرى، نستخدم XLM فقط لتهيئة التشفير والتهيئة بشكل عشوائي فك تشفير ضحلة.النتائج المبلغ عنها قوية وأداء جيدا لجميع اللغات التي تم اختبارها.
في هذه الورقة، نقدم النظم المقدمة من فريقنا من معهد تكنولوجيا المعلومات والاتصالات (HIGH-VD / HES-SO) إلى مهمة MT غير الخاضعة للرقابة والموارد منخفضة للغاية.ندرس أولا التحسينات التي جلبت إلى نظام أساسي من خلال تقنيات مثل الترجمة الخلفي والتهيئة من نم وذج الوالدين.نجد أن كلتا التقنيتين مفيدة وكافية للوصول إلى الأداء الذي يقارن مع أنظمة أكثر تطورا من مهمة 2020.بعد ذلك، نقدم تطبيق هذا النظام إلى مهمة 2021 للمزيد من الأغراض السربية العلوي تحت الإشراف (HSB) إلى الترجمة الألمانية، في كلا الاتجاهين.أخيرا، نقدم نظاما نظعا ل HSB-DE في كلا الاتجاهين، وللترجمة الألمانية غير الخاضعة للرقابة إلى أسفل ترجمة Sorbian (DSB)، والتي تستخدم التدريب المتعدد المهام مع مختلف جداول التدريب لتحسين الخط الأساسي.
تصف هذه الورقة نظام Noahnmt المقدم إلى المهمة المشتركة WMT 2021 الخاصة بترجمة آلية منخفضة للغاية للإشراف على الموارد.النظام هو نموذج محول قياسي مزود بتقنية نقلنا الحديثة.كما توظف التقنيات المستخدمة على نطاق واسع من المعروف أنها مفيدة للترجمة الآلية ا لعصبية، بما في ذلك الترجمة الترجمة الإلكترونية التكرارية، والصلفة المختارة، والوقت.يقدم التقديم النهائي أعلى بلو لثلاثة اتجاهات ترجمة.
نقدم نتائج المهام المشتركة WMT2021 في MT غير المنضدة والموارد منخفضة للغاية.في هذه المهمة، درس المجتمع ترجمة الموارد المنخفضة جدا بين اللغة الألمانية والصربية العليا، والترجمة غير المنخفضة بين الترجمة من اللغة الألمانية والسوربية والمنخفضة الموارد بي ن الروسية والجواد، وجميع لغات الأقليات مع المجتمعات اللغوية النشطة تعمل على الحفاظ على اللغات، والذين هم شركاء فيالتقييم.شكرا بذلك، تمكنا من الحصول على معظم البيانات الرقمية المتاحة لهذه اللغات وتقديمها للمشاركين في المهام.في المجموع، شارك ست فرق في المهمة المشتركة.تناقش الورقة الخلفية، وتعرض المهام والنتائج، ويناقش أفضل الممارسات للمستقبل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا