ترغب بنشر مسار تعليمي؟ اضغط هنا

المحرر: محول تحرير يعتمد على إعادة وضع الترجمة الآلية العصبية مع القيود المعجمية الناعمة

EDITOR: An Edit-Based Transformer with Repositioning for Neural Machine Translation with Soft Lexical Constraints

314   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مجردة، نقدم محول تحرير يعتمد على إعادة تحديد موضع (محرر)، مما يجعل توليد التسلسل مرنا بسلاسة يسمح للمستخدمين بسلاسة لتحديد التفضيلات في الاختيار المعجمي الإخراج.بناء على النماذج الأخيرة لتوليد التسلسل غير التلقائي (GU al.، 2019)، يولد المحرر تسلسلات جديدة من خلال تحرير الفرضيات الإثارة.يعتمد على عملية "إعادة وضع رواية" مصممة لتفكيك الاختيار المعجمي من قرارات تحديد المواقع Word، مع تمكين الأوراج الفعالة للتعلم التقليد والتحرير الموازي في وقت فك التشفير.من التجريبية، يستخدم المحرر القيود المعجمية الناعمة بشكل أكثر فعالية من محول Levenshtein (Gu et al.، 2019) أثناء تسريع فك التشفير بشكل كبير مقارنة بشكل كبير بالبحث عن شعاع (Post and Vilar، 2018).يحقق المحرر أيضا جودة ترجمة قابلة للمقارنة أو أفضل مع سرعة فك التشفير أسرع من مهام الترجمة الآلية الرومانية والإنجليزية والإنجليزية والإنجليزية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم الورقة تجارب في الترجمة الآلية العصبية مع القيود المعجمية في لغة غنية مورمية.على وجه الخصوص، نقدم طريقة واستنادا إلى فك التشفير المقيد والتي تتعامل مع الأشكال المصدرة للإدخالات المعجمية ولا تتطلب أي تعديل بيانات التدريب أو الهندسة المعمارية النم وذجية.لتقييم فعاليتها ونقوم بإجراء تجارب في سيناريوهات مختلفة: عام ومخصص خاص.قارنا طريقنا مع ترجمة خط الأساس، وهي ترجمة بدون قيود معجمية ومن حيث سرعة الترجمة وجودة الترجمة.لتقييم مدى جودة معالجة القيود ونقترح مقاييس تقييم جديدة تأخذ في الاعتبار وجود وتنسيب وازدواجية وصحة الانهيار المصطلحات المعجمية في جملة الإخراج.
في الآونة الأخيرة، تم اقتراح عدد من الأساليب لتحسين أداء الترجمة للترجمة الآلية العصبية على مستوى المستند (NMT). ومع ذلك، فإن القليل من التركيز على موضوع تناسق الترجمة المعجمية. في هذه الورقة، نطبق ترجمة واحدة لكل خطاب "في NMT، وتهدف إلى تشجيع تناسق الترجمة المعجمية ل NMT على مستوى المستند. تتم ثم نشجع ترجمة هذه الكلمات داخل رابط لتكون متسقة بطريقتين. من ناحية، عند ترميز الجمل داخل وثيقة نتخذها بشكل صحيح معلومات السياق من هذه الكلمات. من ناحية أخرى، نقترح وظيفة خسارة مساعدة إلى تقييد أفضل أن ترجمتهم يجب أن تكون متسقة. النتائج التجريبية على الصينية english والإنجليزية → توضح مهام الترجمة الفرنسية أن نهجنا لا يحقق فقط الأداء الحديث في درجات بلو، ولكن أيضا يحسن إلى حد كبير الاتساق المعجمي في الترجمة.
لقد تم الاعتراف على نطاق واسع بأن معلومات بناء الجملة يمكن أن تساعد في أنظمة الترجمة الآلية العصبية في نهاية إلى نهادة لتحقيق ترجمة أفضل. من أجل دمج معلومات التبعية في NMT المحول، النهج الحالية إما استغلال العلاقات المعتمدة في الرأس المحلية، تجاهل جي رانها غير المحليين الذين يحملون سياق مهم؛ أو تقريبي كلمتين "العلاقة الأساسية" من خلال المسافة النسبية الخاصة بها على شجرة التبعية، والتضحية بالضيق. لمعالجة هذه المشكلات، نقترح الترميز الموضعي العالمي لشجرة التبعية، وهو مخطط جديد يسهل نمذجة العلاقة النحوية بين أي كلمتين مع الحفاظ على الدقة ودون قيود جارتها الفورية. نتائج التجربة على NC11 الألمانية → الإنجليزية والإنجليزية → الألمانية و WMT الإنجليزية → تظهر مجموعات البيانات الألمانية أن نهجنا أكثر فعالية من الاستراتيجيتين المذكورتين أعلاه. بالإضافة إلى ذلك، نظرا لأن تجاربنا تظهر كميا أن مقارنة بطبقات أعلى، فإن الطبقات المنخفضة للنموذج هي أماكن أكثر أهمية لإدماج معلومات بناء الجملة من حيث تفضيل كل طبقة للنمط النحوي والأداء النهائي.
تعتمد الترجمة الآلية عادة على Corpora الموازي لتوفير إشارات متوازية للتدريب.جلبت ظهور الترجمة الآلية غير المنشورة ترجمة آلة بعيدا عن هذا الاعتماد، على الرغم من أن الأداء لا يزال يتخلف عن الترجمة التقليدية للإشراف الآلية.في الترجمة الآلية غير المنشورة ، يسعى النموذج إلى أوجه تشابه لغة متماثلة كمصدر للإشارة الموازية الضعيفة لتحقيق الترجمة.إن نظرية تشومسكي العالمي النجمية تفترض أن القواعد هي شكل فطري من المعرفة للبشر ويحكمها المبادئ والقيود العالمية.لذلك، في هذه الورقة، نسعى إلى الاستفادة من هذه الأدلة القواعد المشتركة لتوفير إشارات متوازية لغة أكثر صراحة لتعزيز تدريب نماذج الترجمة الآلية غير المنشورة.من خلال تجارب على أزواج لغة متعددة النموذجية، نوضح فعالية مناهجنا المقترحة.
تعرض نهج الترجمة الآلية العصبية (NMT) التي توظف بيانات أحادية الأحادية تحسينات ثابتة في الظروف الغنية بالموارد. ومع ذلك، فإن التقييمات باستخدام لغات العالم الحقيقي LowResource لا تزال تؤدي إلى أداء غير مرضي. يقترح هذا العمل نهج نمذجة Zeroshot NMT NMT NMT يتعلم بدون افتراض لغة محورية الآن بتقاسم البيانات الموازية مع المصدر الصفر واللغات المستهدفة. يعتمد نهجنا على ثلاث مراحل: التهيئة من أي نموذج NMT المدرب مسبقا مراقبة اللغة المستهدفة على الأقل، وتعزيز جوانب المصدر التي تستفيد من بيانات الأحادية المستهدفة، وتعلم تحسين النموذج الأولي إلى زوج الطلقة الصفرية، حيث الأخيران تشكل دورة selflearyling. تظهر النتائج التجريبية التي تنطوي على أربعة متنوعة (من حيث أسرة اللغة، البرنامج النصي ورابطتها) أزواج صفرية بالرصاص فعالية نهجنا مع ما يصل إلى +5.93 لتحسين بلو على خط الأساس ثنائي اللغة الخاضع للإشراف. بالمقارنة مع NMT غير المدعومة، يلاحظ التحسينات المستمرة حتى في إعداد عدم تطابق المجال، مما يدل على قابلية استخدام طريقتنا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا