ترغب بنشر مسار تعليمي؟ اضغط هنا

Edinsaar @ WMT21: North-Grementic Low-Resource NMT متعدد اللغات

EdinSaar@WMT21: North-Germanic Low-Resource Multilingual NMT

336   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

وصفنا تقديم Edinsaar إلى المهمة المشتركة للترجمة ذات الموارد متعددة اللغات لغات شمال الجرمانية في المؤتمر السادس حول الترجمة الآلية (WMT2021).نقدم نماذج الترجمة متعددة اللغات للترجمات من / إلى الأيسلاندية (IS)، Norwegian-bokmal (NB)، والسويدية (SV).نحن نوظف العديد من الأساليب التجريبية، بما في ذلك التدريب المسبق متعدد اللغات، الترجمة الخلفي، والضبط الجميل، والكمية.في معظم اتجاهات الترجمة، تتفوق نماذجنا على أنظمة أخرى مقدمة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعرف الهند باسم أرض العديد من الألسنة واللهجات. الترجمة الآلية العصبية (NMT) هي النهج الحديث الحالي للترجمة الآلية (MT) ولكنه يعمل بشكل أفضل فقط مع مجموعات البيانات الكبيرة التي تفتقر إليها اللغات الهندية عادة، مما يجعل هذا النهج غير قابل للاستمرار. لذلك، في هذه الورقة، نتعامل مع مشكلة ندرة البيانات من خلال تدريب أنظمة NMT متعددة اللغات متعددة اللغات وغير اللغوية التي تنطوي على لغات ?????? ????????????. نحن نقترح تقنية استخدام علامات المجال واللغة المشتركة في إعداد متعدد اللغات. نرسم ثلاث استنتاجات رئيسية من تجاربنا: (1) تدريب نظام متعدد اللغات عبر استغلال التشابه المعجمي على أساس الأسرة اللغوية يساعد في تحقيق متوسط ​​تحسن إجمالي ?. تساعد الرموز اللغوية على نظام المجال متعدد اللغات في الحصول على تحسين متوسط ​​متوسط ​​? ???? ?????? على أساس الأساس، (3) يساعد المرابط بشكل جيد على تحسين تحسين ?-?.? ???? ?????? للحصول على زوج لغة الاهتمام وبعد
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح ن نستخدم أساسا الترجمة المرجانية، والطرق القائمة على المحور، ونماذج متعددة اللغات، ونقل النموذج المدربين مسبقا، ونقل المعرفة داخل المجال لتحسين جودة الترجمة.في مجموعة الاختبار، يحقق نظامنا الأفضل المقدم بمتوسط 43.45 درجات بلو حساسة لحالة الأحرف عبر جميع أزواج الموارد المنخفضة.تتوفر بياناتنا ورمز النماذج المدربة مسبقا مسبقا في هذا العمل في أمثلة تقييم Tentrans.
تصف هذه الورقة مهمة Charles University الفرعية للمصطلحات المهمة المشتركة للترجمة في WMT21.الهدف من هذه المهمة هو تصميم نظام يترجم مع شروط معينة بناء على قاعدة بيانات المصطلحات المقدمة، مع الحفاظ على جودة الترجمة الشاملة عالية.تنافسنا في زوج اللغة الإ نجليزية الفرنسية.يعتمد نهجنا على توفير الترجمات المرغوبة إلى جانب جملة الإدخال وتدريب النموذج لاستخدام هذه المصطلحات المقدمة.نحن Lemmatize المصطلحات على حد سواء أثناء التدريب والاستدلال، للسماح للنموذج لمعرفة كيفية إنتاج الأشكال السطحية الصحيحة للكلمات، عندما تختلف عن النماذج المتوفرة في قاعدة بيانات المصطلحات.
تقترح هذه الورقة تقنية لإضافة مصدر جديد أو لغة مستهدفة إلى نموذج NMT متعدد اللغات الحالي دون إعادة تدريبه في المجموعة الأولية للغات.وهي تتألف في استبدال المفردات المشتركة مع المفردات الصغيرة الخاصة باللغة ولقلها تضمين المدينات الجديدة على البيانات ال متوازية باللغة الجديدة.قد يتم تدريب بعض المكونات الإضافية الخاصة باللغة على تحسين الأداء (مثل طبقات المحولات أو وحدات المحولات).لأن معلمات النموذج الأصلي لا يتم تعديلها، فإن أدائها على اللغات الأولية لا تتحلل.نظهر على مجموعتين من التجارب (نطاق صغير على محادثات تيد، واسعة النطاق على الباراسراول) أن هذا النهج ينفذ كذلك أو أفضل كمادة أكثر تكلفة؛وأنه يحتوي على أداء ممتازة للصفر: التدريب على البيانات المرن الإنجليزية يكفي للترجمة بين اللغة الجديدة وأي من اللغات الأولية.
إن دمج طرائق الإدخال المتعددة في نظام الترجمة الآلي (MT) يكتسب شعبية بين الباحثين MT. على عكس مجموعة البيانات المتاحة للجمهور لمهام ترجمة الآلات متعددة الوسائط، حيث تكون التسميات التوضيحية أوصاف صورة قصيرة، توفر التعليق الأخبار وصفا أكثر تفصيلا لمحتو يات الصور. نتيجة لذلك، يتم العثور على العديد من الكيانات المسماة المتعلقة بالأشخاص المحددين والمواقع وما إلى ذلك. في هذه الورقة، يكتسبان مجموعة بيانات أخبار أحادية أحادية الأبعاد التي أبلغت باللغة الإنجليزية والهندية مقترنة بالصور لتوليد كوربوس موازية من اللغة الإنجليزية الهندية الاصطناعية. يستخدم Corpus الموازي لتدريب الترجمة الآلية العصبية باللغة الإنجليزية (NMT) ونظام MMT باللغة الإنجليزية من خلال دمج ميزة الصورة المقترنة مع Corpus الموازي المقابلة. نحن أيضا إجراء تحليل منهجي لتقييم أنظمة MT الإنجليزية-الهندية مع 1) المزيد من البيانات الاصطناعية و 2) عن طريق إضافة البيانات المترجمة إلى الوراء. يؤدي النتيجة لدينا إلى تحسن من حيث درجات BLEU لكل من أنظمة NMT (+8.05) و MMT (+11.03).

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا