في هذا العمل، ندرس الهلوسة في الترجمة الآلية العصبية (NMT)، والتي تكمن في نهاية متطرفة على طيف أمراض NMT.أولا، نربط ظاهرة الهلوسة تحت اضطراب المصدر إلى النظرية الطويلة للذيل من فيلدمان، وتقديم فرضية صحيحة تجريبية تشرح الهلوسة تحت اضطرابات المصدر.ثانيا، نفكر في الهلوسة بموجب الضوضاء على مستوى Corpus (بدون أي اضطراب مصدر) وإظهار أن هناك نوعين بارزين من الهلوسة الطبيعية (النواتج المنفجرة والتذمر) يمكن أن يتم توليدها وشرحها من خلال أنماط ضوضاء ذات مستوى كوربوس معين.أخيرا، نوضح ظاهرة التضخيم الهلوسي في عمليات توليد البيانات الشعبية مثل تقطير المعارف على مستوى البيانات والتسلسل.لقد أصدرنا مجموعات البيانات والرمز لتكرار نتائجنا.
In this work, we study hallucinations in Neural Machine Translation (NMT), which lie at an extreme end on the spectrum of NMT pathologies. Firstly, we connect the phenomenon of hallucinations under source perturbation to the Long-Tail theory of Feldman, and present an empirically validated hypothesis that explains hallucinations under source perturbation. Secondly, we consider hallucinations under corpus-level noise (without any source perturbation) and demonstrate that two prominent types of natural hallucinations (detached and oscillatory outputs) could be generated and explained through specific corpus-level noise patterns. Finally, we elucidate the phenomenon of hallucination amplification in popular data-generation processes such as Backtranslation and sequence-level Knowledge Distillation. We have released the datasets and code to replicate our results.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة ونحن نستكشف تقنيات مختلفة للتغلب على تحديات الموارد المنخفضة في الترجمة الآلية العصبية (NMT) وتركز على وجه التحديد على حالة اللغة الإنجليزية الماراثية NMT. تتطلب أنظمة NMT كمية كبيرة من كورسا الموازية للحصول على ترجمات ذات نوعية جيدة. ن
تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من
تقدم الورقة تجارب في الترجمة الآلية العصبية مع القيود المعجمية في لغة غنية مورمية.على وجه الخصوص، نقدم طريقة واستنادا إلى فك التشفير المقيد والتي تتعامل مع الأشكال المصدرة للإدخالات المعجمية ولا تتطلب أي تعديل بيانات التدريب أو الهندسة المعمارية النم
عنصر رئيسي واحد من الترجمة الآلية العصبية هو استخدام مجموعات البيانات الكبيرة من المجالات والموارد المختلفة (E.G. Europarl، TED محادثات).تحتوي مجموعات البيانات هذه على مستندات مترجمة من قبل المترجمين المحترفين باستخدام أنماط الترجمة المختلفة ولكن ثاب
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال