ترغب بنشر مسار تعليمي؟ اضغط هنا

نقل التعلم مع وحدة فك التشفير الضحلة: BSC في الترجمة ذات الموارد المنخفضة لغات WMT2021 للمهمة المشتركة لغات الهند الأوروبية

Transfer Learning with Shallow Decoders: BSC at WMT2021's Multilingual Low-Resource Translation for Indo-European Languages Shared Task

155   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة مشاركة فريق BSC في ترجمة الموارد المنخفضة لغات WMT2021 للمهمة المشتركة بين اللغات الهندية الأوروبية.يهدف النظام إلى حل التتبع الفرعي 2: مقالات التراث الثقافي ويكيبيديا، والتي تنطوي على الترجمة في أربع لغات رومانسية: الكاتالونية والإيطالية والوكر والرومانية.النظام المقدم هو نموذج الترجمة شبه الإشراف متعدد اللغات.إنه يستند إلى نموذج لغة مدرب مسبقا، وهما XLM-Roberta، وهو ما يتم ضبطه في وقت لاحق مع البيانات الموازية التي تم الحصول عليها في الغالب من OPUS.على عكس الأعمال الأخرى، نستخدم XLM فقط لتهيئة التشفير والتهيئة بشكل عشوائي فك تشفير ضحلة.النتائج المبلغ عنها قوية وأداء جيدا لجميع اللغات التي تم اختبارها.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مهمة Charles University الفرعية للمصطلحات المهمة المشتركة للترجمة في WMT21.الهدف من هذه المهمة هو تصميم نظام يترجم مع شروط معينة بناء على قاعدة بيانات المصطلحات المقدمة، مع الحفاظ على جودة الترجمة الشاملة عالية.تنافسنا في زوج اللغة الإ نجليزية الفرنسية.يعتمد نهجنا على توفير الترجمات المرغوبة إلى جانب جملة الإدخال وتدريب النموذج لاستخدام هذه المصطلحات المقدمة.نحن Lemmatize المصطلحات على حد سواء أثناء التدريب والاستدلال، للسماح للنموذج لمعرفة كيفية إنتاج الأشكال السطحية الصحيحة للكلمات، عندما تختلف عن النماذج المتوفرة في قاعدة بيانات المصطلحات.
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح ن نستخدم أساسا الترجمة المرجانية، والطرق القائمة على المحور، ونماذج متعددة اللغات، ونقل النموذج المدربين مسبقا، ونقل المعرفة داخل المجال لتحسين جودة الترجمة.في مجموعة الاختبار، يحقق نظامنا الأفضل المقدم بمتوسط 43.45 درجات بلو حساسة لحالة الأحرف عبر جميع أزواج الموارد المنخفضة.تتوفر بياناتنا ورمز النماذج المدربة مسبقا مسبقا في هذا العمل في أمثلة تقييم Tentrans.
في هذا العمل، نحقق في أساليب المهمة الصعبة المتمثلة في الترجمة بين أزواج لغة الموارد المنخفضة التي تظهر بعض مستوى التشابه.على وجه الخصوص، نعتبر فائدة نقل التعلم للترجمة بين العديد من لغات الموارد المنخفضة الأوروبية من الهند من الأسر الجرمانية والروما نسية.على وجه الخصوص، نبني اثنين من الطبقات الرئيسية من النظم القائمة على النقل لدراسة كيفية استخدام ترابط الأداء الترجمة.النظام الأساسي يضم النموذج الذي تم تدريبه مسبقا على زوج لغة ذات صلة ونظام قابل للتناقض بشكل جيد-قم بإلغاء التدريب مسبقا على زوج لغة غير ذات صلة.تبين تجاربنا أنه على الرغم من أن المرتبطة ليست ضرورية لنقل التعلم للعمل، إلا أنها تنفذ أداء نموذجي.
تقدم هذه الورقة العمل قيد التقدم نحو إنشاء أسرة من الكلمات من أجل Sanskrit واليونانية القديمة واللاتينية.بناء على المحاولات السابقة في هذا المجال، نقوم بوضع هذه الجهود التي تقوم بتجمعها من دلالات الصفحات العلنية WordNet مع نظريات المعنى من اللغويات ا لمعرفية.نناقش بعض الابتكارات التي أدخلناها إلى هندسة Wordnet، لتحقيق أفضل لالتقاط polysemy من الكلمات، وكذلك الميزات الخاصة باللغة الهندية الأوروبية.نستنتج الورقة تأطير عملنا داخل الصورة الأكبر للموارد المتاحة للغات القديمة وإظهار أن أدوات البحث المدعومة من Wordnet - لديها القدرة على إعادة تحديد أنواع الأسئلة التي يمكن أن يطلب من لغة اللغة القديمة.
نقدم نتائج المهمة المشتركة ل LORESMT 2021 التي تركز على الترجمة الآلية (MT) من بيانات CovID-19 لكل من اللغات المنطوقة والتسوق المنخفضة الموارد. تم إجراء تنظيم هذه المهمة كجزء من ورشة العمل الرابعة حول تكنولوجيات الترجمة الآلية لغات الموارد المنخفضة ( LORESMT). يتم تقديم Corpora المتوازي والمتاحة للجمهور والتي تتضمن الاتجاهات التالية: English↔irish، English↔marathi، وتايوانية Language Language Chinese. تتكون بيانات التدريب من 8112 و 20933 و 128608، على التوالي. هناك مجموعات بيانات أحادية الأحادية الإضافية للماراثية والإنجليزية التي تتكون من 21901 شريحة. تعتمد النتائج المقدمة هنا على مداخل من إجمالي ثمانية فرق. قدم ثلاثة فرق أنظمة للإنجليز في حين أن خمسة فرق قدمت أنظمة ل EnglishMarathi. لسوء الحظ، لم تكن هناك عروض أنظمة لمهمة التايوانية للتايوانية. تم حساب أقصى أداء النظام باستخدام BLEU ومتابعة AS 36.0 للغة الإنجليزية - الأيرلندية، 34.6 للأيرلندية - الإنجليزية، 24.2 للغة الإنجليزية - الماراثي، و 31.3 للماراثي - الإنجليزية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا