ترغب بنشر مسار تعليمي؟ اضغط هنا

تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام الم ختلفة وظروف البيانات تجعل من الصعب رسم مقارنة ذات مغزى. في العمل الحالي، نهدف إلى نهج أكثر منهجية للمهمة في متناول اليد. أولا، نقوم بتحليل أداء تحديد اللغة، وهي أداة تستخدم عادة لتصفية البيانات في مجتمع MT وتحديد نقاط الضعف المحددة. بناء على النتائج التي توصلنا إليها، نقترح بعد ذلك العديد من أساليب رواية لتصفية البيانات، استنادا إلى Argeddings Word عبر اللغات. قارنا مناهجنا إلى إحدى الطرق الفائزة من المهمة المشتركة ل WMT 2018 على تصفية Corpus الموازية على ثلاث مهام حقيقية عالية الموارد MT. نجد الطريقة المذكورة المذكورة، والتي كانت تؤدي قوية للغاية في المهمة المشتركة WMT، لا تؤدي بشكل جيد خلال ظروف مهمتنا الأكثر واقعية. بينما نجد أن نهجنا تخرج في الجزء العلوي من المهام الثلاثة، فإن المتغيرات المختلفة تؤدي أفضل مهام مختلفة. تشير تجارب أخرى على المهمة المشتركة لعاملة WMT 2020 للتصفية الشديدة الموازية أن أساليبنا تحقق نتائج مماثلة لأقوى التقديمات لهذه الحملة.
طرق ناجحة للترجمة الآلية العصبية غير المنشأة (UNMT) توظف الاحتجاج عبر اللغات عبر الإشراف الذاتي، في كثير من الأحيان في شكل نمذجة لغة ملمقة أو مهمة توليد التسلسل، والتي تتطلب نموذج محاذاة التمثيلات المعجمية والفوضيةاللغتين.بينما يعمل الاحتجاج عبر اللغ ات اللغوي لغات مماثلة مع كوربورا وفيرة، فإنه يؤدي بشكل سيئ في اللغات المنخفضة والبستية.أظهرت الأبحاث السابقة أن هذا هو أن التمثيلات غير محاذاة بما فيه الكفاية.في هذه الورقة، نعزز نموذج اللغة الملثملة ثنائية اللغة بإحاطا بمعلومات على المستوى المعجمي باستخدام تضيير الكلمات الفرعية عبر مستوى المستوى.توضح النتائج التجريبية الأداء المحسن على حد سواء على نظام التعمير (ما يصل إلى 4.5 بلو) وتحليل المعجم الثنائي اللغة باستخدام طريقتنا مقارنة بناس خط الأساس.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا