ترغب بنشر مسار تعليمي؟ اضغط هنا

محول قفزة متعددة للترجمة آلة على مستوى المستند

Multi-Hop Transformer for Document-Level Machine Translation

567   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أثبتت الترجمة الآلية النموذجية على مستوى المستند (NMT) أنها ذات قيمة عميقة لفعاليتها في التقاط المعلومات السياقية. ومع ذلك، فإن الأساليب الحالية 1) تعرض ببساطة تمثيل أحكام السياق دون تمييز عملية التفكير بين الجملة؛ و 2) تغذية السياقات المستهدفة في الحقيقة كدخلات إضافية في وقت التدريب، وبالتالي تواجه مشكلة تحيز التعرض. ونحن نقترب من هذه المشاكل مع إلهام من السلوك البشري - المترجمين البشري يظهر عادة مشروع ترجمة في أذهانهم وتنقيحها تدريجيا وفقا للمنطق في الخطاب. تحقيقا لهذه الغاية، نقترح محول رواية متعددة القفز (MHT) الذي يوفر قدرات NMT على نموذج عملية التحرير والتفكير الذي يشبه الإنسان بشكل صريح. على وجه التحديد، يخدم نموذجنا الترجمة على مستوى الجملة كمسودة ويحدد خصوصياتها بشكل صحيح من خلال حضور جمل متعددة غير متجانسة تكرارا. توضح التجارب على أربعة مهام ترجمة مستندات مستعملة على نطاق واسع أن طريقتنا يمكن أن تحسن بشكل كبير من أداء الترجمة على مستوى المستندات ويمكنها معالجة ظواهر الخطاب، مثل خطأ COMARACARE ومشكلة Polysemy.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في الآونة الأخيرة، تم اقتراح عدد من الأساليب لتحسين أداء الترجمة للترجمة الآلية العصبية على مستوى المستند (NMT). ومع ذلك، فإن القليل من التركيز على موضوع تناسق الترجمة المعجمية. في هذه الورقة، نطبق ترجمة واحدة لكل خطاب "في NMT، وتهدف إلى تشجيع تناسق الترجمة المعجمية ل NMT على مستوى المستند. تتم ثم نشجع ترجمة هذه الكلمات داخل رابط لتكون متسقة بطريقتين. من ناحية، عند ترميز الجمل داخل وثيقة نتخذها بشكل صحيح معلومات السياق من هذه الكلمات. من ناحية أخرى، نقترح وظيفة خسارة مساعدة إلى تقييد أفضل أن ترجمتهم يجب أن تكون متسقة. النتائج التجريبية على الصينية english والإنجليزية → توضح مهام الترجمة الفرنسية أن نهجنا لا يحقق فقط الأداء الحديث في درجات بلو، ولكن أيضا يحسن إلى حد كبير الاتساق المعجمي في الترجمة.
يحدد اختيار استراتيجية مشاركة المعلمات في نماذج الترجمة الآلية متعددة اللغات مدى استخدام مساحة المعلمة الأمثلة، وبالتالي، تؤثر مباشرة على جودة الترجمة النهائية.وقد اقترح مؤخرا مختارة من الأشجار اللغوية التي تظهر درجة الرعاية بين اللغات المختلفة، كما تم اقتراح النهج العام الجديد لمشاركة المعلمة في الترجمة متعددة اللغات في الترجمة متعددة اللغات.تتمثل الفكرة الرئيسية في استخدام هذه التسلسلات الهرمية لغوية الخبراء كأساس للهندسة المعمارية متعددة اللغات: كلما زادت اللغتين، كلما زاد عدد المعلمات التي يشاركونها.في هذا العمل، نختبر هذه الفكرة باستخدام بنية المحولات وإظهار أنه على الرغم من النجاح في العمل السابق هناك مشاكل متأصلة لتدريب هذه النماذج الهرمية.نوضح أنه في حالة اتباع استراتيجية التدريب المختارة بعناية، يمكن للهندسة الهيكل الهرمية تفوق النماذج ثنائية اللغة ونماذج متعددة اللغات مع مشاركة المعلمات الكاملة.
تهدف ترجمة جهاز الوثائق إلى ترجمة جملة المصدر إلى اللغة المستهدفة بحضور معلومات سياقية إضافية.ومع ذلك، فإنه يعاني عادة من نقص البيانات ثنائية اللغة الوثيقة.لعلاج هذا، هنا نقترح نهجا ما قبل السياق البسيط والفعال في السياق، والذي يستحق الاستفادة من كور سا واسعة النطاق الخارجي.ينفذ النموذج المقترح توليد جملة جملة لالتقاط تبعية الجملة المتعددة في الوثيقة المستهدفة، والترجمة عبر الجملة الصريعة للاستفادة بشكل أفضل من المعلومات السياقية القيمة.توضح تجارب شاملة أن نهجنا يمكن أن تحقق أداء أحدث على ثلاثة مجموعات بيانات معيار، مما يتفوق بشكل كبير على مجموعة متنوعة من الأساس.
لقد تم الاعتراف على نطاق واسع بأن معلومات بناء الجملة يمكن أن تساعد في أنظمة الترجمة الآلية العصبية في نهاية إلى نهادة لتحقيق ترجمة أفضل. من أجل دمج معلومات التبعية في NMT المحول، النهج الحالية إما استغلال العلاقات المعتمدة في الرأس المحلية، تجاهل جي رانها غير المحليين الذين يحملون سياق مهم؛ أو تقريبي كلمتين "العلاقة الأساسية" من خلال المسافة النسبية الخاصة بها على شجرة التبعية، والتضحية بالضيق. لمعالجة هذه المشكلات، نقترح الترميز الموضعي العالمي لشجرة التبعية، وهو مخطط جديد يسهل نمذجة العلاقة النحوية بين أي كلمتين مع الحفاظ على الدقة ودون قيود جارتها الفورية. نتائج التجربة على NC11 الألمانية → الإنجليزية والإنجليزية → الألمانية و WMT الإنجليزية → تظهر مجموعات البيانات الألمانية أن نهجنا أكثر فعالية من الاستراتيجيتين المذكورتين أعلاه. بالإضافة إلى ذلك، نظرا لأن تجاربنا تظهر كميا أن مقارنة بطبقات أعلى، فإن الطبقات المنخفضة للنموذج هي أماكن أكثر أهمية لإدماج معلومات بناء الجملة من حيث تفضيل كل طبقة للنمط النحوي والأداء النهائي.
تؤكد الدراسات الحديثة على حاجة إلى سياق وثائق في التقييم البشري لترجمات الماكينة، لكن القليل من الأبحاث قد تم في تأثير واجهات المستخدم على الإنتاجية العنصرية وموثوقية التقييمات.في هذا العمل، نقوم بمقارنة بيانات التقييم البشري من أحدث حملتين تقييمين م ن WMT التي تم جمعها عبر طريقتين مختلفتين لتقييم مستوى المستندات.يوضح تحليلنا أن اتباع نهج تركز على المستندات في التقييم حيث يتم عرض العنصي مع سياق المستند بأكمله على الشاشة يؤدي إلى تقييمات أعلى جودة ومستوى المستندات.إنه يحسن الارتباط بين القطاع وعشرات المستندات ويزيد من اتفاقية المشتركة بين النقاط عن درجات الوثائق ولكنها أكثر بكثير من الوقت المستهلكة للمعجبين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا