ترغب بنشر مسار تعليمي؟ اضغط هنا

تسك: طريقة تكبير البيانات بسيطة للترجمة الآلية العصبية

mixSeq: A Simple Data Augmentation Methodfor Neural Machine Translation

439   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعزز البيانات، التي تشير إلى معالجة المدخلات (على سبيل المثال، إضافة ضوضاء عشوائية، اخفاء أجزاء محددة) لتكبير مجموعة البيانات، تم اعتمادها على نطاق واسع في تعلم الجهاز.تعمل معظم تقنيات تكبير البيانات على إدخال واحد، مما يحد من تنوع كوربوس التدريب.في هذه الورقة، نقترح تقنية بسيطة ولكنها فعالة لتكبير البيانات للترجمة الآلية العصبية، mixseq، والتي تعمل على مدخلات متعددة وأهدافها المقابلة لها.على وجه التحديد، نقوم بشكل عشوائي بتحديد تسلسل مدخلتين بشكل عشوائي، وتسلسلها معا كإدخال أطول كما أن تسلسل المستحضرات المستهدفة المقابلة للهدف الموسع، ونماذج القطار على مجموعة البيانات المستعملة.تثبت التجارب في تسع مهام ترجمة آلية أن هذه الطريقة Asimple تعزز الخط الأساس عن طريق هامش غير تافهة.يمكن دمج طريقةنا مع طرق تكبير البيانات المستندة إلى الإدخال الفردي للحصول على مزيد من التحسينات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح طريقة تكبير البيانات للترجمة الآلية العصبية.إنه يعمل عن طريق تفسير نماذج اللغة ومحاذاة الجمل الفعلية سببا.على وجه التحديد، فإنه يخلق كورس ترجمة موازية مزعجة عن طريق توليد عبارات محاذاة مضادة للمحاطة (المسار).نحن نولد هذه من خلال أخذ عينات من عب ارات مصدر جديدة من نموذج لغة ملثم، ثم أخذ عينات من عبارة مستهدفة محاذاة محاذاة من خلال الإشارة إلى أن نموذج لغة الترجمة يمكن تفسيره على أنه نموذج سببي هيكلي Gumbel-Max (Oberst و Sontag، 2019).مقارنة بالعمل السابق، تأخذ طريقتنا السياق ومحاذاة في الاعتبار للحفاظ على التماثل بين المصدر والتسلسلات المستهدفة.تجارب على iwslt'15 الإنجليزية → الفيتنامية، WMT'17 الإنجليزية → الألمانية، WMT'18 English → التركية، و WMT'19 قوية الإنجليزية → معرض الفرنسية أن الطريقة يمكن أن تحسن أداء الترجمة والخلفية والترجمة قوية.
مؤخرا، تستخدم الترجمة الآلية العصبية على نطاق واسع لدقة الترجمة عالية، ولكن من المعروف أيضا أن تظهر أداء ضعيف في ترجمة جماعية طويلة.الى جانب ذلك، يظهر هذا الاتجاه بشكل بارز لغات الموارد المنخفضة.نحن نفترض أن هذه المشاكل ناتجة عن جمل طويلة كونها قليلة في بيانات القطار.لذلك، نقترح طريقة تكبير البيانات للتعامل مع جمل طويلة.طريقتنا بسيطة؛نحن نستخدم فقط شركة موازية معينة كبيانات تدريب وتوليد جمل طويلة من خلال تسليط جملتين.بناء على تجاربنا، نؤكد تحسينات في ترجمة جماعية طويلة من خلال تكبير البيانات المقترح على الرغم من البساطة.علاوة على ذلك، تقوم الطريقة المقترحة بتحسين جودة الترجمة أكثر عندما تقترن بالترجمة الخلفية.
نلاحظ أن التطوير فقدان انتروبيا فقدان نماذج الترجمة الآلية الخاضعة للإشراف على قوانين الطاقة بمقدار بيانات التدريب وعدد المعلمات غير التضمين في النموذج.نناقش بعض الآثار العملية لهذه النتائج، مثل التنبؤ بلو الذي تحققه نماذج واسعة النطاق وتوقع عائد الا ستثمار من بيانات وضع العلامات في أزواج لغة الموارد المنخفضة.
تصف هذه الورقة مشاركة فريق UOB-NLP في SubTask SubTask المشترك 7A.كانت المهمة تهدف إلى اكتشاف ذكر المهن في نص وسائل التواصل الاجتماعي.جرب فريقنا بطريقتين لتحسين أداء النماذج المدربة مسبقا: على وجه التحديد، جربنا مع زيادة البيانات من خلال الترجمة ودمج المدخلات اللغوية المتعددة لتلبية هدف المهمة.في حين أن أفضل نموذج أداء في بيانات الاختبار تتألف من Mbert Tuned على البيانات المعززة باستخدام الترجمة الخلفية، فإن التحسن بسيطا ربما لأن النماذج المدربة مسبقا متعددة اللغات مثل Mbert لديها بالفعل الوصول إلى نوع المعلومات المقدمة من خلال الخلف- البيانات والبيانات ثنائية اللغة.
بالنسبة للترجمة اليابانية إلى الإنجليزية، تشكل الضمائر الصفرية في اليابانية تحديا، نظرا لأن النموذج يحتاج إلى استنتاج النموذج وإنتاج الضمير المقابل في الجانب المستهدف من الجملة الإنجليزية.ومع ذلك، على الرغم من أن حل الضمائر الصفرية بالكامل غالبا ما ت حتاج إلى سياق خطاب، في بعض الحالات، فإن السياق المحلي في غضون جملة يمنح أدلة على استنتاج الضمير الصفر.في هذه الدراسة، نقترح طريقة تكبير البيانات التي توفر إشارات تدريبية إضافية لنموذج الترجمة لتعلم الارتباطات بين السياق المحلي وضمائر الصفر.نظهر أن الطريقة المقترحة تعمل بشكل كبير على تحسين دقة ترجمة صفر الضمير مع تجارب ترجمة الجهاز في مجال المحادثة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا