ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم Multiway Multiling NMT في اللغات التركية

Evaluating Multiway Multilingual NMT in the Turkic Languages

206   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

على الرغم من العدد المتزايد من أنظمة الترجمة الآلية الكبيرة والشاملة (MT)، فقد تم تقييد تقييم هذه الأساليب بلغات مختلفة بسبب عدم وجود كورسا موازية عالية الجودة بالإضافة إلى المشاركة مع الأشخاص الذين يتحدثون هذه اللغات. في هذه الدراسة، نقدم تقييم مناهج أحدث من النهج التدريبية لتدريب وتقييم أنظمة MT في 22 لغة من عائلة اللغات التركية، معظمها يتم استكشافها بشكل كبير. أولا، نعتمد كوربوس سمسم مع بعض التحسينات الرئيسية على التدريب ومجموعات التقييم. ثم، ندرب 26 خطوط خطوط خطوط خطية ثنائية اللغة بالإضافة إلى نموذج MT (MNMT) متعدد الاتجاهات باستخدام Corpus وأداء تحليل مكثف باستخدام المقاييس التلقائية وكذلك التقييمات البشرية. نجد أن نموذج MNMT يتفوق على جميع خطوط الأساس الثنائية الثالثة تقريبا في مجموعات الاختبار خارج المجال وتؤدي النموذج الموجود على مهمة المصب من زوج واحد يؤدي أيضا إلى زيادة كبيرة في الأداء في كل من سيناريوهات منخفضة وعالية الموارد. يشير تحليلنا اليقظ لمعايير التقييم لنماذج MT باللغات التركية أيضا إلى ضرورة مزيد من البحث في هذا الاتجاه. نقوم بإصدار تقسيم Corpus، ومجموعات الاختبار وكذلك النماذج للجمهور.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعرف الهند باسم أرض العديد من الألسنة واللهجات. الترجمة الآلية العصبية (NMT) هي النهج الحديث الحالي للترجمة الآلية (MT) ولكنه يعمل بشكل أفضل فقط مع مجموعات البيانات الكبيرة التي تفتقر إليها اللغات الهندية عادة، مما يجعل هذا النهج غير قابل للاستمرار. لذلك، في هذه الورقة، نتعامل مع مشكلة ندرة البيانات من خلال تدريب أنظمة NMT متعددة اللغات متعددة اللغات وغير اللغوية التي تنطوي على لغات ?????? ????????????. نحن نقترح تقنية استخدام علامات المجال واللغة المشتركة في إعداد متعدد اللغات. نرسم ثلاث استنتاجات رئيسية من تجاربنا: (1) تدريب نظام متعدد اللغات عبر استغلال التشابه المعجمي على أساس الأسرة اللغوية يساعد في تحقيق متوسط ​​تحسن إجمالي ?. تساعد الرموز اللغوية على نظام المجال متعدد اللغات في الحصول على تحسين متوسط ​​متوسط ​​? ???? ?????? على أساس الأساس، (3) يساعد المرابط بشكل جيد على تحسين تحسين ?-?.? ???? ?????? للحصول على زوج لغة الاهتمام وبعد
تصف هذه الورقة العمل والأنظمة المقدمة من فريق IIIT-HYDERBAD في مهمة WAT 2021 Multiindicmt المشتركة. تغطي المهمة 10 لغات رئيسية من شبه القارة الهندية. بالنسبة لنطاق هذه المهمة، قمنا ببناء أنظمة متعددة اللغات لمدة 20 ساعة توسيعية وهي الإنجليزية-MED (ON E-LICONE) وإرش إنجليزي (كثير إلى واحد). منفردة، اللغات الهندية هي فقراء الموارد التي تعيق جودة الترجمة ولكن من خلال الاستفادة من تعدد اللغات والهدوضة غير اللغوية والنباتية، يمكن تعزيز جودة الترجمة بشكل كبير. لكن أنظمة متعددة اللغات معقدة للغاية من حيث الوقت وكذلك الموارد الحسابية. لذلك، نحن ندرب أنظمتنا من خلال إلقاء البيانات الكفاءة التي سيساهم في الواقع في معظم عملية التعلم. علاوة على ذلك، نحن نستغل أيضا اللغة المتعلقة بعثر بين اللغات الهندية. تم إجراء جميع المقارنات باستخدام نقاط بلو ووجدت أن نظامنا متعدد اللغات النهائي يتفوق بشكل كبير على خطوط الأساس بمعدل 11.3 و 19.6 نقاط بلو لترويج الإنجليزي (EN-XX) وإرادي الإنشاءات الإنجليزي (XX-EN) ، على التوالى.
تقترح هذه الورقة تقنية لإضافة مصدر جديد أو لغة مستهدفة إلى نموذج NMT متعدد اللغات الحالي دون إعادة تدريبه في المجموعة الأولية للغات.وهي تتألف في استبدال المفردات المشتركة مع المفردات الصغيرة الخاصة باللغة ولقلها تضمين المدينات الجديدة على البيانات ال متوازية باللغة الجديدة.قد يتم تدريب بعض المكونات الإضافية الخاصة باللغة على تحسين الأداء (مثل طبقات المحولات أو وحدات المحولات).لأن معلمات النموذج الأصلي لا يتم تعديلها، فإن أدائها على اللغات الأولية لا تتحلل.نظهر على مجموعتين من التجارب (نطاق صغير على محادثات تيد، واسعة النطاق على الباراسراول) أن هذا النهج ينفذ كذلك أو أفضل كمادة أكثر تكلفة؛وأنه يحتوي على أداء ممتازة للصفر: التدريب على البيانات المرن الإنجليزية يكفي للترجمة بين اللغة الجديدة وأي من اللغات الأولية.
وصفنا تقديم Edinsaar إلى المهمة المشتركة للترجمة ذات الموارد متعددة اللغات لغات شمال الجرمانية في المؤتمر السادس حول الترجمة الآلية (WMT2021).نقدم نماذج الترجمة متعددة اللغات للترجمات من / إلى الأيسلاندية (IS)، Norwegian-bokmal (NB)، والسويدية (SV).ن حن نوظف العديد من الأساليب التجريبية، بما في ذلك التدريب المسبق متعدد اللغات، الترجمة الخلفي، والضبط الجميل، والكمية.في معظم اتجاهات الترجمة، تتفوق نماذجنا على أنظمة أخرى مقدمة.
دفعت التطورات الحديثة في الترجمة الآلية العصبية (NMT) جودة أنظمة الترجمة الآلية إلى النقطة التي أصبحوا فيها اعتمادها على نطاق واسع لبناء أنظمة تنافسية. ومع ذلك، لا يزال هناك عدد كبير من اللغات التي لم تجنيها بعد فوائد NMT. في هذه الورقة، نقدم أول درا سة حالة واسعة النطاق للتطبيق العملي ل MT في عائلة اللغة التركية من أجل تحقيق مكاسب NMT للغات التركية تحت الموارد عالية الموارد إلى سيناريوهات منخفضة للغاية الموارد. بالإضافة إلى تقديم تحليل واسع النطاق يحدد الاختناقات نحو بناء أنظمة تنافسية لتحسين ندرة البيانات، فإن دراستنا لديها العديد من المساهمات الرئيسية، بما في ذلك، طن موازي كبير يغطي 22 لغة تركية تتكون من مجموعات بيانات عامة مشتركة مع مجموعات بيانات جديدة من ما يقرب من 1.4 مليون جمل موازية، 2) خطوط أساس ثنائية اللغة ل 26 أزواج لغة، III) مجموعات اختبار عالية الجودة الرواية في ثلاثة مجالات ترجمة مختلفة و 4 درجات التقييم البشري. سيتم إصدار جميع النماذج والبرامج النصية والبيانات للجمهور.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا