نؤيد موضوع اتجاه الترجمة في البيانات المستخدمة لتدريب أنظمة الترجمة الآلية العصبية والتركيز على سيناريو في العالم الحقيقي مع اتجاه الترجمة المعروفة والاختلالات في اتجاه الترجمة: هانزارد الكندي.وفقا للمقاييس التلقائية ونحن نلاحظ أنه باستخدام البيانات الموازية التي تم إنتاجها في "اتجاه الترجمة" المطابقة (الهدف الأصيل والترجمة) يحسن جودة الترجمة.في حالات عدم توازن البيانات من حيث اتجاه الترجمة ونتجد أن وضع العلامات على اتجاه الترجمة يمكن إغلاق فجوة الأداء.نقوم بإجراء تقييم بشري يختلف قليلا عن المقاييس التلقائية، لكنه يؤكد ذلك على هذه البيانات الفرنسية الإنجليزية المعروفة لاحتواء ترجمات عالية الجودة ومصدر مختلط أصيل أو مختار على تحسين المصدر المرتبط بالترجمة للتدريب.
We revisit the topic of translation direction in the data used for training neural machine translation systems and focusing on a real-world scenario with known translation direction and imbalances in translation direction: the Canadian Hansard. According to automatic metrics and we observe that using parallel data that was produced in the matching'' translation direction (Authentic source and translationese target) improves translation quality. In cases of data imbalance in terms of translation direction and we find that tagging of translation direction can close the performance gap. We perform a human evaluation that differs slightly from the automatic metrics and but nevertheless confirms that for this French-English dataset that is known to contain high-quality translations and authentic or tagged mixed source improves over translationese source for training.
المراجع المستخدمة
https://aclanthology.org/
يصف هذا العمل تحليل طبيعة وأسباب أخطاء MT التي لوحظها مقيمين مختلفين بموجب إرشادات لمعايير الجودة المختلفة: كفاية والفهم وعدم تحديد خليط عام من كفايته والطلاقة.نبلغ عن نتائج ثلاثة أزواج لغوية ومجالات ونظم من طراز MT.تشير النتائج الخاصة بنا إلى أنه وع
اللغة هي السياق مثل المعاني من الكلمات تعتمد على سياقاتها.السياق هو، من المفهوم المحدد جيدا في ميكانيكا الكم حيث يعتبر موردا كبيرا لحسابات الكمومية.نحن نحقق في ما إذا كانت اللغة الطبيعية تعرض أي من الميزات السياقية الميكانيكية الكمومية.نظير على أنه ي
في هذه الورقة، نقدم النظم المقدمة من فريقنا من معهد تكنولوجيا المعلومات والاتصالات (HIGH-VD / HES-SO) إلى مهمة MT غير الخاضعة للرقابة والموارد منخفضة للغاية.ندرس أولا التحسينات التي جلبت إلى نظام أساسي من خلال تقنيات مثل الترجمة الخلفي والتهيئة من نم
نقدم نتائج المهام المشتركة WMT2021 في MT غير المنضدة والموارد منخفضة للغاية.في هذه المهمة، درس المجتمع ترجمة الموارد المنخفضة جدا بين اللغة الألمانية والصربية العليا، والترجمة غير المنخفضة بين الترجمة من اللغة الألمانية والسوربية والمنخفضة الموارد بي
نماذج لغة محول كبيرة مدربة مسبقا، والتي تكون منتشرة في مهام معالجة اللغة الطبيعية، تكون مكلفة للغاية للتدريب. لتقليل تكلفة التدريب هذه النماذج الكبيرة، طورت العمل السابق طرزا أصغر وأكثر ضغطا تحقق تسريعا كبيرا في وقت التدريب مع الحفاظ على دقة تنافسية