ترغب بنشر مسار تعليمي؟ اضغط هنا

الإشراف القائم على الترجمة عن جيل السياسة في الترجمة الآلية العصبية في وقت واحد

Translation-based Supervision for Policy Generation in Simultaneous Neural Machine Translation

424   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في الترجمة الآلية المتزامنة، والعثور على وكيل مع تسلسل العمل الأمثل للقراءة والكتابة التي تحتفظ بمستوى عال من جودة الترجمة مع التقليل من التأخر المتوسط ​​في إنتاج الرموز المستهدفة لا يزال مشكلة صعبة للغاية. نقترح نهج تعليمي تحت إشراف رواية لتدريب وكيل يمكنه اكتشاف الحد الأدنى لعدد القراءة المطلوبة لتوليد كل رمزية مستهدفة من خلال مقارنة الترجمات المتزامنة ضد ترجمات الجملة الكاملة أثناء التدريب لإنشاء تسلسل عمل أوراكل. يمكن بعد ذلك استخدام تسلسل أوراكل هذه لتدريب نموذج إشراف لتوليد العمل في وقت الاستدلال. يوفر نهجنا بديلا عن طرق التشكيل الحالية في الترجمة المتزامنة من خلال تقديم هدف تدريب جديد، وهو أمر أسهل للتدريب من المحاولات السابقة في تدريب الوكيل باستخدام تقنيات تعليم التعزيز لهذه المهمة. تظهر نتائجنا التجريبية أن طريقة التدريب الجديدة لتوليد العمل تنتج ترجمات عالية الجودة مع تقليل التأخر المتوسط ​​في الترجمة الفورية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في وضع الترجمة في الوقت الحقيقي للترجمة في الوقت الفعلي، تبدأ نماذج الترجمة الآلية العصبية (NMT) بتوليد الرموز الرموز اللغوية المستهدفة من جمل لغة مصدر غير كاملة وجعلها أكثر صعوبة في ترجمة وجودة الترجمة السيئة. أظهرت الأبحاث السابقة أن NMT على مستوى الوثيقة وتشمل الجملة والترميز السياق والكشف عن السياق من الجمل المجاورة ويساعد على تحسين جودة الترجمة. في إعدادات الترجمة المتزامنة، يجب أن يكون السياق من الجمل السابقة أكثر أهمية. تحقيقا لهذه الغاية وفي هذه الورقة، نقترح NMT على مستوى الوثيقة المتزامنة للانتظار حيث نحتفظ بمثابة تشفير السياق كما هو الحال واستبدال تشفير جملة المصدر ومكتشف اللغة المستهدف مع ما يعادله. نقوم بتجربة إعدادات الموارد المنخفضة والعالية باستخدام ALT و OPENSUBTITLES2018 Corpora وأين لاحظنا تحسينات طفيفة في جودة الترجمة. بعد ذلك إجراء تحليل للترجمات التي تم الحصول عليها باستخدام نماذجنا من خلال التركيز على الجمل التي يجب أن تستفيد من السياق حيث اكتشفنا أن النموذج يفعل وفي الواقع والاستفادة من السياق ولكنه غير قادر على الاستفادة من ذلك بشكل فعال وخاصة في انخفاض إعداد الموارد. هذا يدل على أن هناك حاجة لمزيد من الابتكار في طريقة تحديد السياق المفيد والاستفادة منها.
الترجمة المتزامنة هي مهمة تبدأ فيها الترجمة قبل انتهاء المتكلم من التحدث، لذلك من المهم أن تقرر متى تبدأ عملية الترجمة.ومع ذلك، فإن اتخاذ قرار بشأن قراءة المزيد من كلمات الإدخال أو بدء الترجمة من الصعب على أزواج اللغة مع أوامر كلمة مختلفة مثل اللغة ا لإنجليزية واليابانية.بدافع من مفهوم إعادة ترتيب المسبق، نقترح بضع قواعد قرارات بسيطة باستخدام تسمية التأسيس التالي المتوقع من خلال التنبؤ التسمي التأسيسي التدريجي.في تجارب على الترجمة الفورية الإنجليزية إلى اليابانية، الطريقة المقترحة تفوق خطوط الأساس في مفاضلة جودة الكمون.
بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم ا يحدد NMT (SSNMT) بشكل مرئي جمل متوازية في بيانات وقابلة للمقارنة أصغر.لهذا التاريخ، لم يتم التحقيق في تقنيات توليد بيانات UMT في SSNMT.نظهر أنه بما في ذلك تقنيات UMT في SSNMT تتفوق بشكل كبير SSNMT (يصل إلى +4.3 بلو و AF2EN) بالإضافة إلى خطوط خطوط إحصائية (+50.8 بلو) و Sybrid UMT (+51.5 بلو) على أزواج لغة ذات صلة وغير ذات صلة وغير ذات صلة.
تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من أنواع الرمز المميز (256) من الأبعاد.من المستغرب، استبدال طبقة التضمين في كل مكان بتمثيلات ساخنة لكل بايت لا تؤذي الأداء؛تظهر التجارب في الترجمة الآلية بايت إلى بايت من الإنجليزية إلى 10 لغات مختلفة تحسنا ثابتا في بلو، ومستوى الطابع المتنافس وحتى نماذج مستوى الكلمات الفرعية القياسية.يكشف التحقيق الأعمق أن مزيج من نماذج تضمينه مع ترميز مفاتيح المدخلات بمبالغ الرمز إلى التسرب الرمزي، والذي يفيد نماذج بايت إلى بايت بشكل خاص.
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال مهمة، استغلنا بيانات أحادية الأونلينغ عن طريق تضيير Word مسبقا في Transformer Model Necural Translation للتعامل مع قيود Corpus الموازية.لقد حقق نموذجنا تقييم ثنائي اللغة التقييم (بلو) 0.05، درجة التقييم البديهات بديهية سهلة اللغة (RIBES) في المرتبة (RIBES) من 24.80 ونتيجة معدل تحرير الترجمة من 97.24 لكل من Tamil-to-Telugu و Teluguترجمات التاميل على التوالي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا