ترغب بنشر مسار تعليمي؟ اضغط هنا

بيرت، mbert، أو bibert؟دراسة حول تضمينات السياق للترجمة الآلية العصبية

BERT, mBERT, or BiBERT? A Study on Contextualized Embeddings for Neural Machine Translation

409   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

دفع نجاح ترميزات ثنائية الاتجاه باستخدام نماذج لغة ملثم، مثل بيرت، في العديد من مهام معالجة اللغة الطبيعية، بباحثي المحاولة لإدماج هذه النماذج المدربة مسبقا في أنظمة الترجمة الآلية العصبية (NMT). ومع ذلك، فإن الأساليب المقترحة لإدماج النماذج المدربة مسبقا هي غير تافهة وتركز بشكل أساسي على بيرتف، والتي تفتقر إلى مقارنة التأثير الذي قد يكون له النماذج الأخرى المدربة مسبقا على أداء الترجمة. في هذه الورقة، نوضح ببساطة باستخدام الناتج (Attentralized Advedings) من طراز لغة تدرب مسبقا مخصص ومناسب (Bibert) مناسبة (Bibert) حيث أن إدخال ترميز NMT يحقق أداء ترجمة حديثة من بين الفن. علاوة على ذلك، نقترح أيضا نهج اختيار طبقة مؤشر استوكاستك ومفهوم نموذج الترجمة المزدوج الاتجاه لضمان الاستخدام الكافي للمشروعات السياقية. في حالة عدم استخدام الترجمة الخلفية، تحقق أفضل النماذج لدينا درجات بلو من 30.45 ل ill → DE و 38.61 ل De → EN على DataSet IWSLT'14، و 31.26 ل EN → DE و 34.94 ل De → EN على WMT 14 DataSet، مما يتجاوز جميع الأرقام المنشورة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذا العمل، نحلل متانة أنظمة الترجمة الآلية العصبية نحو الاضطرابات النحوية في المصدر.على وجه الخصوص، نركز على اضطرابات الانعطاف المورفولوجي.بينما تمت دراسة هذا مؤخرا للغة الإنجليزية → French (Morpheus) (Tan et al.، 2020)، فمن غير الواضح كيف تمتد هذ ا إلى أي أنظمة ترجمة إنجليزية →.نقترح Morpheus - متعدد اللغات التي تستخدم قواميس Unimorph لتحديد اضطرابات مورفولوجية للمصدر الذي يؤثر سلبا على نماذج الترجمة.جنبا إلى جنب مع تحليل أنظمة MT المسبقة للحكانات، نقوم بتدريب وتحليل الأنظمة لمدة 11 أزواج لغة باستخدام كوربوس TED متعددة اللغات (Qi et al.، 2018).نحن نقارن أيضا هذا مع الأخطاء الفعلية من مكبرات البيانات غير الأصلية باستخدام مجموعات بيانات تصحيح الأخطاء النحوية.أخيرا، نقدم تحليلا نوعيا وكميا لأغاني أي أنظمة ترجمة إنجليزية →.
نماذج الترجمة الآلية العصبية (NMT) هي مدفوعة بالبيانات وتتطلب كوربوس تدريب واسع النطاق. في التطبيقات العملية، عادة ما يتم تدريب نماذج NMT على مجال مجال عام ثم يتم ضبطه بشكل جيد من خلال التدريب المستمر على Corpus في المجال. ومع ذلك، فإن هذا يحمل خطر ا لنسيان الكارثي الذي ينخفض ​​فيه الأداء الموجود على المجال العام بشكل كبير. في هذا العمل، نقترح إطارا تعليميا مستمرا جديدا لنماذج NMT. نحن نعتبر سيناريو حيث يتألف التدريب من مراحل متعددة واقتراح تقنية تقطير معارف ديناميكية لتخفيف مشكلة النسيان الكارثي بشكل منهجي. نجد أيضا أن التحيز موجود في الإسقاط الخطي الإخراج عند ضبط جيد على Corpus في المجال، واقترح وحدة تصحيح التحيز للقضاء على التحيز. نقوم بإجراء تجارب في ثلاثة إعدادات تمثيلية لتطبيق NMT. تظهر النتائج التجريبية أن الطريقة المقترحة تحقق أداء فائقا مقارنة بالنماذج الأساسية في جميع الإعدادات.
أسئلة البحث الحديثة أهمية الاهتمام الذاتي لمنتج المنتج في نماذج المحولات ويظهر أن معظم رؤساء الاهتمام تعلم أنماطا موضعية بسيطة. في هذه الورقة، ندفع أبعد من ذلك في خط البحث هذا واقتراح آلية بديلة جديدة عن النفس: الاهتمام المتكرر (ران). تتعلم RAN بشكل مباشر أوزان الاهتمام دون أي تفاعل رمزي إلى رمز ويحسن قدرتها على تفاعل الطبقة إلى الطبقة. عبر مجموعة واسعة من التجارب في 10 مهام ترجمة آلية، نجد أن نماذج RAN تنافسية وتفوق نظيرها المحول في بعض السيناريوهات، مع عدد أقل من المعلمات ووقت الاستدلال. خاصة، عند تطبيق ركض إلى فك ترميز المحولات، يجلب التحسينات المتسقة عن طريق حوالي +0.5 بلو في 6 مهام الترجمة و +1.0 Bleu على مهمة الترجمة التركية الإنجليزية. بالإضافة إلى ذلك، نجرينا تحليلا مكثفا بشأن أوزان الاهتمام في ركض لتأكيد المعقولية. ران لدينا هو بديل واعد لبناء نماذج NMT أكثر فعالية وكفاءة.
تعتمد معظم نماذج الترجمة الآلية العصبية الحالية ترتيب فك التشفير الرخيصي إما من اليسار إلى اليمين أو اليمين إلى اليسار.في هذا العمل، نقترح طريقة رواية تنفصل قيود أوامر فك التشفير هذه، تسمى فك تشفير الذكية.وبشكل أكثر تحديدا، تتوقع طريقةنا أولا كلمة مت وسط.يبدأ فك شفرة الكلمات الموجودة على الجانب الأيمن من الكلمة المتوسطة ثم يولد كلمات على اليسار.نحن نقيم طريقة فك التشفير الذكية المقترحة على ثلاث مجموعات البيانات.تظهر النتائج التجريبية أن الطريقة المقترحة يمكن أن تتفوق بشكل كبير على النماذج الأساسية القوية.
نقترح طريقة تكبير البيانات للترجمة الآلية العصبية.إنه يعمل عن طريق تفسير نماذج اللغة ومحاذاة الجمل الفعلية سببا.على وجه التحديد، فإنه يخلق كورس ترجمة موازية مزعجة عن طريق توليد عبارات محاذاة مضادة للمحاطة (المسار).نحن نولد هذه من خلال أخذ عينات من عب ارات مصدر جديدة من نموذج لغة ملثم، ثم أخذ عينات من عبارة مستهدفة محاذاة محاذاة من خلال الإشارة إلى أن نموذج لغة الترجمة يمكن تفسيره على أنه نموذج سببي هيكلي Gumbel-Max (Oberst و Sontag، 2019).مقارنة بالعمل السابق، تأخذ طريقتنا السياق ومحاذاة في الاعتبار للحفاظ على التماثل بين المصدر والتسلسلات المستهدفة.تجارب على iwslt'15 الإنجليزية → الفيتنامية، WMT'17 الإنجليزية → الألمانية، WMT'18 English → التركية، و WMT'19 قوية الإنجليزية → معرض الفرنسية أن الطريقة يمكن أن تحسن أداء الترجمة والخلفية والترجمة قوية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا