ترغب بنشر مسار تعليمي؟ اضغط هنا

CONTOTE-AWARE TECODER الترجمة الآلية العصبية باستخدام نموذج لغة الوثيقة ذات المستوى المستهدف

Context-aware Decoder for Neural Machine Translation using a Target-side Document-Level Language Model

170   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

على الرغم من أنه تم اقتراح العديد من نماذج الترجمة الآلية التي أدركها العديد من المناظر في إدراج سياقات مشتركة بين العلويين في الترجمة، يمكن تدريب هذه النماذج فقط في المجالات التي توجد فيها مستندات متوازية ذات محاذاة أساسيا.لذلك نقدم طريقة بسيطة لأداء فك تشفير السياق مع أي نموذج ترجمة مسبقا مسبقا مسبقا مسبقا باستخدام نموذج لغة مستوى المستند.تم بناء وحدة فك ترميز Context-Aware الخاص بنا على البيانات الموازية على مستوى الجملة والبيانات غير المباشرة على مستوى المستند على مستوى المستند.من وجهة نظر نظرية، فإن مساهمتنا الأساسية هي التمثيل الجديد لمعلومات السياقية باستخدام المعلومات المتبادلة النقطة بين السياق والحكم الحالي.نوضح فعالية طريقنا على الترجمة الإنجليزية إلى الترجمة الروسية، من خلال تقييمها مع اختبارات بلو وتناقض الترجمة من السياق.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في وضع الترجمة في الوقت الحقيقي للترجمة في الوقت الفعلي، تبدأ نماذج الترجمة الآلية العصبية (NMT) بتوليد الرموز الرموز اللغوية المستهدفة من جمل لغة مصدر غير كاملة وجعلها أكثر صعوبة في ترجمة وجودة الترجمة السيئة. أظهرت الأبحاث السابقة أن NMT على مستوى الوثيقة وتشمل الجملة والترميز السياق والكشف عن السياق من الجمل المجاورة ويساعد على تحسين جودة الترجمة. في إعدادات الترجمة المتزامنة، يجب أن يكون السياق من الجمل السابقة أكثر أهمية. تحقيقا لهذه الغاية وفي هذه الورقة، نقترح NMT على مستوى الوثيقة المتزامنة للانتظار حيث نحتفظ بمثابة تشفير السياق كما هو الحال واستبدال تشفير جملة المصدر ومكتشف اللغة المستهدف مع ما يعادله. نقوم بتجربة إعدادات الموارد المنخفضة والعالية باستخدام ALT و OPENSUBTITLES2018 Corpora وأين لاحظنا تحسينات طفيفة في جودة الترجمة. بعد ذلك إجراء تحليل للترجمات التي تم الحصول عليها باستخدام نماذجنا من خلال التركيز على الجمل التي يجب أن تستفيد من السياق حيث اكتشفنا أن النموذج يفعل وفي الواقع والاستفادة من السياق ولكنه غير قادر على الاستفادة من ذلك بشكل فعال وخاصة في انخفاض إعداد الموارد. هذا يدل على أن هناك حاجة لمزيد من الابتكار في طريقة تحديد السياق المفيد والاستفادة منها.
تتضمن ترجمة الآلات العصبية السياق (NMT) معلومات سياقية من النصوص المحيطة بها، والتي يمكن أن تحسن جودة الترجمة من الترجمة الآلية على مستوى المستند. ركز العديد من الأعمال الموجودة على NMT على دراية السياق على تطوير هياكل نموذجية جديدة لإدماج سياقات إضا فية وأظهرت بعض النتائج الواعدة. ومع ذلك، فإن معظم الأعمال الموجودة تعتمد على فقدان الانتروبيا، مما يؤدي إلى استخدام محدود من المعلومات السياقية. في هذه الورقة، نقترح CoreFCL، وتعزيز البيانات الجديدة ومخطط التعلم المتعاقلي على أساس COMERALE بين المصدر والجمل السياقية. من خلال التفسير الذي تم اكتشافه تلقائيا يذكر السلامة في الجملة السياقية، يمكن corefcl تدريب النموذج على أن تكون حساسة لتناقض الأساسية. جربنا من طريقنا على نماذج NMT Common Commany-Aware NMT ومهام ترجمة على مستوى المستند. في التجارب، تحسنت طريقتنا باستمرار بلو من النماذج المقارنة على المهام الإنجليزية والألمانية والكورية. نظهر أيضا أن طريقتنا تعمل بشكل كبير على تحسين دقة Aquerence في جناح الاختبار الإنجليزي والألماني.
تصف هذه الورقة مشاركة الفريق Onenlp (LTRC، IIIT-Hyderabad) لمهمة WMT 2021، ترجمة لغوية مماثلة.لقد جربنا الترجمة الآلية العصبية القائمة على المحولات واستكشف استخدام تشابه لغة Tamil-Telugu وتيلجو التاميل.لقد أدمجنا استخدام تكوينات الكلمات الفرعية المخت لفة، وتحويل البرنامج النصي والتدريب النموذجي الفردي لكلا الاتجاهين كجارب استكشافية.
يستخدم تكيف المجال على نطاق واسع في التطبيقات العملية للترجمة الآلية العصبية، والتي تهدف إلى تحقيق أداء جيد على كل من المجال العام والبيانات داخل المجال. ومع ذلك، فإن الأساليب الحالية لتكييف المجال عادة ما تعاني من النسيان الكارثي، والاختلاف المجال ا لكبير، والانفجار النموذجي. لمعالجة هذه المشكلات الثلاثة، نقترح طريقة للتقسيم والتغلب عليها "والتي تعتمد على أهمية الخلايا العصبية أو المعلمات لنموذج الترجمة. في هذه الطريقة، نقوم أولا بإزالة النموذج ويحافظ على الخلايا العصبية أو المعلمات المهمة فقط، مما يجعلها مسؤولة عن كل من المجال العام والترجمة داخل المجال. ثم علينا مزيد من تدريب النموذج المعاني الذي يشرف عليه النموذج الكامل الأصلي مع تقطير المعرفة. أخيرا، نوسع النموذج إلى الحجم الأصلي وضبط المعلمات المضافة للترجمة داخل المجال. أجرينا تجارب على أزواج ومجالات مختلفة للغة والنتائج تظهر أن طريقتنا يمكن أن تحقق تحسينات كبيرة مقارنة بالعديد من خطوط الأساس القوية.
في الآونة الأخيرة، تم اقتراح عدد من الأساليب لتحسين أداء الترجمة للترجمة الآلية العصبية على مستوى المستند (NMT). ومع ذلك، فإن القليل من التركيز على موضوع تناسق الترجمة المعجمية. في هذه الورقة، نطبق ترجمة واحدة لكل خطاب "في NMT، وتهدف إلى تشجيع تناسق الترجمة المعجمية ل NMT على مستوى المستند. تتم ثم نشجع ترجمة هذه الكلمات داخل رابط لتكون متسقة بطريقتين. من ناحية، عند ترميز الجمل داخل وثيقة نتخذها بشكل صحيح معلومات السياق من هذه الكلمات. من ناحية أخرى، نقترح وظيفة خسارة مساعدة إلى تقييد أفضل أن ترجمتهم يجب أن تكون متسقة. النتائج التجريبية على الصينية english والإنجليزية → توضح مهام الترجمة الفرنسية أن نهجنا لا يحقق فقط الأداء الحديث في درجات بلو، ولكن أيضا يحسن إلى حد كبير الاتساق المعجمي في الترجمة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا