ترغب بنشر مسار تعليمي؟ اضغط هنا

ترجمة الجهاز المتزامن العالمي مع سياسة خليط الخبراء

Universal Simultaneous Machine Translation with Mixture-of-Experts Wait-k Policy

89   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقوم الترجمة الآلية المتزامنة (Simt) بإنشاء ترجمة قبل قراءة جملة المصدر بأكملها وبالتالي يجب عليها التجانس بين جودة الترجمة والكمول. للوفاء بمتطلبات جودة الترجمة المختلفة والكمون في التطبيقات العملية، عادة ما تحتاج الأساليب السابقة إلى تدريب نماذج SIMT متعددة لمستويات الكمون المختلفة، مما يؤدي إلى تكاليف حسابية كبيرة. في هذه الورقة، نقترح نموذجا عالميا SIMT مع سياسة مثالية من الخبراء وينظر K لتحقيق أفضل جودة الترجمة تحت الكمون التعسفي مع نموذج واحد مدرب فقط. على وجه التحديد، توظف طريقتنا اهتماما متعدد الأطراف لإنجاز مزيج الخبراء حيث يتم التعامل مع كل رأس كخبير الانتظار الخاص به برقم كلمات الانتظار الخاصة به، وبالنظر إلى مزيد من مدخلات الكمون ومشروعات المصدر، يتم تعديل أوزان الخبراء لإنتاج أفضل الترجمة. تظهر التجارب في ثلاث مجموعات البيانات أن أسلوبنا تتفوق على جميع خطوط الأساس القوية بموجب زينة مختلفة، بما في ذلك السياسة التكيفية الحديثة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعد الانتباه عبر الانتباه عنصرا هاما للترجمة الآلية العصبية (NMT)، والتي تتحقق دائما عن طريق انتباه DOT-Product في الأساليب السابقة.ومع ذلك، فإن اهتمام DOT-Product يعتبر فقط الارتباط بين الكلمات بين الكلمات، مما أدى إلى تشتت عند التعامل مع جمل طويلة وإهمال العلاقات المجاورة للمصدر.مستوحاة من اللغويات، فإن القضايا المذكورة أعلاه ناجمة عن تجاهل نوع من الاهتمام، الذي يطلق عليه الانتباه المركزي، الذي يركز على عدة كلمات مركزية ثم ينتشر حولها.في هذا العمل، نطبق نموذج خليط غاوسي (GMM) لنموذج الاهتمام المركزي بالاهتمام الشامل.تبين التجارب والتحليلات التي أجريناها على ثلاث مجموعات من مجموعات البيانات أن الطريقة المقترحة تتفوق على خط الأساس ولديها تحسن كبير في جودة المحاذاة ودقة N-Gram والترجمة الحكم الطويلة.
إن القدرة على توليد أسئلة باللغة الطبيعية مع مستويات التعقيد التي تسيطر عليها مرغوب فيه للغاية لأنها توزع تطبيق تطبيق سؤال. في هذه الورقة، نقترح نموذجا من جيلات السؤال العصبي المرتعل من نهاية إلى نهج، مما يشتمل على مزيج من الخبراء (MOE) كمحدد قوالب ن اعمة لتحسين دقة مراقبة التعقيد ونوعية الأسئلة التي تم إنشاؤها. القوالب الناعمة تلتقط التشابه السؤال مع تجنب البناء باهظ الثمن للقوالب الفعلية. تقدم طريقتنا رواية ومقدر تعقيد عبر المجال لتقييم تعقيد سؤال، مع مراعاة المقطع والسؤال والإجابة وتفاعلاتها. تظهر النتائج التجريبية على مجموعات بيانات QA القياسية على أن نموذج QG الخاص بنا متفوقا على الأساليب الحديثة في كل من التقييم التلقائي واليدوي. علاوة على ذلك، فإن مقدر التعقيد لدينا أكثر دقة بكثير من خطوط الأساس في كلا من إعدادات المجال والخروج.
تعتمد الترجمة الآلية عادة على Corpora الموازي لتوفير إشارات متوازية للتدريب.جلبت ظهور الترجمة الآلية غير المنشورة ترجمة آلة بعيدا عن هذا الاعتماد، على الرغم من أن الأداء لا يزال يتخلف عن الترجمة التقليدية للإشراف الآلية.في الترجمة الآلية غير المنشورة ، يسعى النموذج إلى أوجه تشابه لغة متماثلة كمصدر للإشارة الموازية الضعيفة لتحقيق الترجمة.إن نظرية تشومسكي العالمي النجمية تفترض أن القواعد هي شكل فطري من المعرفة للبشر ويحكمها المبادئ والقيود العالمية.لذلك، في هذه الورقة، نسعى إلى الاستفادة من هذه الأدلة القواعد المشتركة لتوفير إشارات متوازية لغة أكثر صراحة لتعزيز تدريب نماذج الترجمة الآلية غير المنشورة.من خلال تجارب على أزواج لغة متعددة النموذجية، نوضح فعالية مناهجنا المقترحة.
التقييم البشري التجريدي لأنظمة الترجمة عالية الجودة الحديثة هي مشكلة صعبة، وهناك أدلة متزايدة على أن إجراءات التقييم غير الكافية يمكن أن تؤدي إلى استنتاجات خاطئة. بينما كان هناك بحث كبير في التقييم البشري، لا يزال الحقل يفتقر إلى إجراء قياسي شائع. كخ طوة نحو هذا الهدف، نقترح منهجية تقييم في تحليل خطأ صريح، استنادا إلى إطار مقاييس الجودة متعددة الأبعاد (MQM). نحن نفذت أكبر دراسة بحثية MQM حتى الآن، وتسجيل مخرجات الأنظمة العليا من المهمة المشتركة WMT 2020 في أزواج لغتين باستخدام التعليقات التوضيحية المقدمة من المترجمين المحترفين مع الوصول إلى سياق المستند الكامل. نقوم بتحليل البيانات الناتجة على نطاق واسع، والعثور على نتائج أخرى بمثابة ترتيب مختلف تماما للأنظمة المقدرة من تلك المنشأة من قبل عمال الحشد WMT، تعرض تفضيل واضح لإخراج الإنسان على الجهاز. من المستغرب، نجد أيضا أن المقاييس التلقائية القائمة على المدينات المدربة مسبقا يمكن أن تفوق عمال الحشد البشري. نحن نجعل كوربوس متاحة علنا ​​لمزيد من البحث.
في الترجمة الآلية المتزامنة، والعثور على وكيل مع تسلسل العمل الأمثل للقراءة والكتابة التي تحتفظ بمستوى عال من جودة الترجمة مع التقليل من التأخر المتوسط ​​في إنتاج الرموز المستهدفة لا يزال مشكلة صعبة للغاية. نقترح نهج تعليمي تحت إشراف رواية لتدريب وكي ل يمكنه اكتشاف الحد الأدنى لعدد القراءة المطلوبة لتوليد كل رمزية مستهدفة من خلال مقارنة الترجمات المتزامنة ضد ترجمات الجملة الكاملة أثناء التدريب لإنشاء تسلسل عمل أوراكل. يمكن بعد ذلك استخدام تسلسل أوراكل هذه لتدريب نموذج إشراف لتوليد العمل في وقت الاستدلال. يوفر نهجنا بديلا عن طرق التشكيل الحالية في الترجمة المتزامنة من خلال تقديم هدف تدريب جديد، وهو أمر أسهل للتدريب من المحاولات السابقة في تدريب الوكيل باستخدام تقنيات تعليم التعزيز لهذه المهمة. تظهر نتائجنا التجريبية أن طريقة التدريب الجديدة لتوليد العمل تنتج ترجمات عالية الجودة مع تقليل التأخر المتوسط ​​في الترجمة الفورية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا