تركز التقدم السريع في أنظمة الترجمة الآلية العصبية على مدى السنوات القليلة الماضية بشكل أساسي على تحسين جودة الترجمة، وكتركيز ثانوي، وتحسين متانة للاضطرات (على سبيل المثال الإملاء). في حين أن الأداء والقوة هي أهداف مهمة، من خلال التركيز على هذه، فإننا نخاطر بتوقيف الخصائص المهمة الأخرى. في هذه الورقة، نلفت الانتباه إلى حقيقة أنه بالنسبة لبعض التطبيقات، فإن الإخلاص النص الأصلي (الإدخال) مهم للحفاظ عليه، حتى لو كان ذلك يعني إدخال أنماط لغة غير عادية في الترجمة (الإخراج). نقترح طريقة بسيطة رواية لتحديد ما إذا كان نظام NMT يعرض متزايدا أو إخلاصا، من خلال التركيز على حالة اضطراب ترتيب الكلمات. نستكشف مجموعة من الوظائف لإشراض ترتيب الكلمات من الجمل المصدر دون حذف أو حقن الرموز، وقياس آثارها على الجانب المستهدف. عبر العديد من الحالات التجريبية، نلاحظ ميلا قويا نحو متانة بدلا من الإخلاص. تتيح لنا هذه النتائج أن نفهم المفاضلة بشكل أفضل بين الإخلاص والمتانة في NMT، ويفتح إمكانية تطوير النظم التي يكون فيها المستخدمون لديهم المزيد من الحكم الذاتي والتحكم في اختيار العقار الأفضل من الأنسب لحالة استخدامها.
Rapid progress in Neural Machine Translation (NMT) systems over the last few years has focused primarily on improving translation quality, and as a secondary focus, improving robustness to perturbations (e.g. spelling). While performance and robustness are important objectives, by over-focusing on these, we risk overlooking other important properties. In this paper, we draw attention to the fact that for some applications, faithfulness to the original (input) text is important to preserve, even if it means introducing unusual language patterns in the (output) translation. We propose a simple, novel way to quantify whether an NMT system exhibits robustness or faithfulness, by focusing on the case of word-order perturbations. We explore a suite of functions to perturb the word order of source sentences without deleting or injecting tokens, and measure their effects on the target side. Across several experimental conditions, we observe a strong tendency towards robustness rather than faithfulness. These results allow us to better understand the trade-off between faithfulness and robustness in NMT, and opens up the possibility of developing systems where users have more autonomy and control in selecting which property is best suited for their use case.
المراجع المستخدمة
https://aclanthology.org/
لا يزال الاستحواذ على بيانات التدريب المتعدد اللغات يمثل تحديا في غزالة معنى الكلمة (WSD).لمعالجة هذه المشكلة، اقترحت النهج غير الخاضعة للكالة لإنشاء التعليقات التوضيحية بالمعنى تلقائيا لتدريب أنظمة WSD الخاضعة للإشراف.نقدم ثلاث طرق جديدة لإنشاء كورب
فهم عندما لا يوفر مقتطف النص معلومات سعية بعد هي جزء أساسي من اللغة الطبيعية Utnderstanding. العمل الحديث (Squad 2.0؛ Rajpurkar et al.، 2018) حاولت إحراز بعض التقدم في هذا الاتجاه من خلال إثراء بيانات الفريق الخاصة بمهمة ضمان الجودة الاستخراجية مع أس
تعتمد معظم دراسات معالجة اللغة الطبيعية الأخيرة (NLP) على النهج الضميني - PFA (PFA)، ولكن في المؤسسات أو الشركات الصغيرة والمتوسطة مع الأجهزة غير الكافية، هناك العديد من القيود لخدمة برنامج تطبيق NLP باستخدام هذه التكنولوجيا بسبب هذه التكنولوجيا سرعة
محول غير تلقائي هو نموذج توليد نص واعد.ومع ذلك، لا تزال النماذج الحالية غير التلقائية التي لا تزال تقف وراء نظرائها التلقائي في جودة الترجمة.نحن نعزو فجوة الدقة هذه إلى عدم وجود نمذجة التبعية بين مدخلات فك التشفير.في هذه الورقة، نقترح CNAT، والتي تتع
توضح هذه الورقة تقديم IWSLT-St المجموعة ESPNET-St Group في مسار ترجمة الكلام دون اتصال بالإنترنت. لقد بذلنا هذا العام جهود مختلفة على تدريب البيانات والهندسة المعمارية وتجزئة الصوت. على جانب البيانات، التحقق في تقطير المعرفة على مستوى التسلسل (SEQKD)