ترغب بنشر مسار تعليمي؟ اضغط هنا

التهاب الدقيقة من محولات الترجمة لترجمة لغات منخفضة الموارد Lolorsmt 2021

Attentive fine-tuning of Transformers for Translation of low-resourced languages @LoResMT 2021

219   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقارير هذه الورقة أنظمة الترجمة الآلية المقدمة من فريق IIITT للغة الإنجليزية → أزواج اللغة المهاراتية والإنجليزية أزواج LORESMT 2021 المشاركة المشتركة.تركز المهمة على الحصول على ترجمات استثنائية لغات منخفضة بالموارد منخفضة إلى حد ما مثل الأيرلندية والماراثية.نحن نايت Tune Endertrans، نموذج NMT متعدد اللغات مسبقا للغة الإنجليزية → Marathi، باستخدام Corpus الموازي الخارجي كمدخل للتدريب الإضافي.لقد استخدمنا نموذج English Helsinki-NLP Opus Mt للزواج باللغة الأخير.تؤدي نهجنا إلى نتائج واعدة نسبيا على مقاييس بلو.تحت اسم الفريق IIITT، تصنيف أنظمتنا في المرتبة 1، 1، و 2 باللغة الإنجليزية → الماراثي، الأيرلندية → الإنجليزية، والإنجليزية → الأيرلندية على التوالي.يتم نشر رموز أنظمتنا 1.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم نتائج المهمة المشتركة ل LORESMT 2021 التي تركز على الترجمة الآلية (MT) من بيانات CovID-19 لكل من اللغات المنطوقة والتسوق المنخفضة الموارد. تم إجراء تنظيم هذه المهمة كجزء من ورشة العمل الرابعة حول تكنولوجيات الترجمة الآلية لغات الموارد المنخفضة ( LORESMT). يتم تقديم Corpora المتوازي والمتاحة للجمهور والتي تتضمن الاتجاهات التالية: English↔irish، English↔marathi، وتايوانية Language Language Chinese. تتكون بيانات التدريب من 8112 و 20933 و 128608، على التوالي. هناك مجموعات بيانات أحادية الأحادية الإضافية للماراثية والإنجليزية التي تتكون من 21901 شريحة. تعتمد النتائج المقدمة هنا على مداخل من إجمالي ثمانية فرق. قدم ثلاثة فرق أنظمة للإنجليز في حين أن خمسة فرق قدمت أنظمة ل EnglishMarathi. لسوء الحظ، لم تكن هناك عروض أنظمة لمهمة التايوانية للتايوانية. تم حساب أقصى أداء النظام باستخدام BLEU ومتابعة AS 36.0 للغة الإنجليزية - الأيرلندية، 34.6 للأيرلندية - الإنجليزية، 24.2 للغة الإنجليزية - الماراثي، و 31.3 للماراثي - الإنجليزية.
تصف هذه الورقة مهمة Charles University الفرعية للمصطلحات المهمة المشتركة للترجمة في WMT21.الهدف من هذه المهمة هو تصميم نظام يترجم مع شروط معينة بناء على قاعدة بيانات المصطلحات المقدمة، مع الحفاظ على جودة الترجمة الشاملة عالية.تنافسنا في زوج اللغة الإ نجليزية الفرنسية.يعتمد نهجنا على توفير الترجمات المرغوبة إلى جانب جملة الإدخال وتدريب النموذج لاستخدام هذه المصطلحات المقدمة.نحن Lemmatize المصطلحات على حد سواء أثناء التدريب والاستدلال، للسماح للنموذج لمعرفة كيفية إنتاج الأشكال السطحية الصحيحة للكلمات، عندما تختلف عن النماذج المتوفرة في قاعدة بيانات المصطلحات.
وقد تبين أن نماذج اللغة متعددة اللغات المحددة تعمل بشكل جيد في العديد من اللغات لمجموعة متنوعة من مهام NLP المصب. ومع ذلك، من المعروف أن هذه النماذج تتطلب الكثير من البيانات التدريبية. وبالتالي يترك هذا نسبة كبيرة من لغات العالم لأنها نقص الموارد. عل اوة على ذلك، فإن الدافع الرئيسي وراء هذه النماذج هو أن لغات الموارد المنخفضة تستفيد من التدريب المشترك بلغات الموارد العليا. في هذا العمل، نتحدى هذا الافتراض وتقديم المحاولة الأولى لتدريب نموذج لغة متعددة اللغات على لغات الموارد المنخفضة فقط. نظهر أنه من الممكن تدريب نماذج لغة متعددة اللغات التنافسية على أقل من 1 غيغابايت من النص. يغطي نموذجنا، يدعى Afriberta، 11 لغة إفريقية، بما في ذلك نموذج اللغة الأول لمدة 4 من هذه اللغات. التقييمات حول التعرف على الكيان المسمى وتصنيف النص يشير إلى 10 لغات تظهر أن النموذج لدينا تفوقت على mbert و xlm-rin عدة لغات وتنافسية للغاية بشكل عام. تشير النتائج إلى أن نهج بياناتنا الصغير بناء على لغات مماثلة قد يعمل في بعض الأحيان أفضل من التدريب المشترك على مجموعات البيانات الكبيرة مع لغات موارد عالية. يتم إصدار الرمز والبيانات والنماذج في https://github.com/keleog/afriberta.
إن جيل البيانات إلى النص (D2T) في المجال الطبي الطبيعي هو واعد - ولكن في الغالب غير مستكشفة - مجال البحث.هنا، نطبق النماذج العصبية لتوليد D2T إلى مجموعة بيانات حقيقية تتكون من منشورات الحزمة من الأدوية الأوروبية.نظهر أن المحولات التي تم ضبطها بشكل جي د قادرون على توليد نص واقعي متعدد الجملة من البيانات في المجال الطبي الطبيعي، ولكن لها قيود مهمة.ونحن نطلق أيضا عن مجموعة بيانات جديدة (bioileaflets) لنماذج جيل D2T القياسية في المجال الطبي الطبيعي.
توضح هذه الورقة التقديم إلى المهمة المشتركة لخطوط خطاب IWSLT 2021 من قبل فريق IMS.نستخدم النماذج الحديثة من النماذج المشتركة مع العديد من أساليب تكبير البيانات ومتعدد المهام والنقل مناهج للتعرف على الكلام التلقائي (ASR) وخطوات الترجمة الآلية (MT) لنظ امنا المتتالي.علاوة على ذلك، فإننا نستكشف أيضا جدوى نموذج ترجمة خط الكلام (ST) بالكامل في حالة كمية مقيدة للغاية من الحقيقة الأرضية المصنفة.يحقق أفضل نظامنا أفضل أداء بين جميع الأنظمة المقدمة للسواحيلية للإنجليزية والفرنسية مع درجات بلو 7.7 و 13.7 على التوالي، وثاني أفضل نتيجة للسواحيلية السواحلية إلى الإنجليزية مع النتيجة بلو 14.9.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا