ثبت أن أداء أنظمة NMT يعتمد على جودة بيانات التدريب.في هذه الورقة، نستكشف أدوات مختلفة مفتوحة المصدر التي يمكن استخدامها لتسجيل جودة أزواج الترجمة، بهدف الحصول على كورسا نظيفة لتدريب نماذج NMT.نقيس أداء هذه الأدوات من خلال ربط درجاتهم بالدرجات البشرية، وكذلك نماذج الرتبة المدربة على مجموعات البيانات التي تمت تصفيتها الناتجة من حيث أدائها في مجموعات اختبار مختلفة ومقاييس أداء MT.
Performance of NMT systems has been proven to depend on the quality of the training data. In this paper we explore different open-source tools that can be used to score the quality of translation pairs, with the goal of obtaining clean corpora for training NMT models. We measure the performance of these tools by correlating their scores with human scores, as well as rank models trained on the resulting filtered datasets in terms of their performance on different test sets and MT performance metrics.
المراجع المستخدمة
https://aclanthology.org/
تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام الم
انفجار المحتوى الذي أنشأه المستخدم (UGC) --- E.G. وظائف وتعليقات وسائل التواصل الاجتماعي والتعليقات والمراجعات --- تحفز تطوير تطبيقات NLP مصممة على هذه الأنواع من النصوص غير الرسمية. السائدة بين هذه التطبيقات كانت تحليل المعنويات والترجمة الآلية (MT)
طُبق مفهوم إعادة استخدام التردد بشكل ناجح في أنظمة الاتصالات الخليوية الحديثة، من أجل زيادة سعة النظام، من الممكن إحداث تحسُّن آخر في السعة بتطبيق المصفوفات المتكيفة في المحطة الأساسية، يستخدم من أجل ملاحقة المستخدمين المرغوبين خوارزميات إيجاد الاتجا
نقترح مهمة مشتركة على اختيار مثيل التدريب لعدد قليل من الجيل العصبي العصبي.أدت نماذج اللغة المحددة مسبقا على نطاق واسع إلى تحسينات مثيرة في جيل نص قليل.ومع ذلك، فإن كل العمل السابق تقريبا يطبق ما عليك سوى أخذ عينات عشوائية لتحديد مثيلات التدريب القلي
هناك نوعان مناهضين لتسجيل الجملة الزوجية: التشفير المكونات، مما أداء الانتباه الكامل عبر زوج الإدخال، والترميزات الثنائية، والتي تعريش كل مدخلات بشكل مستقل إلى مساحة متجهية كثيفة. في حين أن التشفير المتقاطعة غالبا ما يحقق أداء أعلى، فهي بطيئة للغاية