ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم مناهج الكفاءة القائمة على الترجمة متعددة اللغات

Competence-based Curriculum Learning for Multilingual Machine Translation

295   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حاليا، تتلقى الترجمة متعددة اللغات الآلية أكثر اهتماما أكثر وأكثر لأنها تجلب أداء أفضل لغات الموارد المنخفضة (LRLS) وتوفر مساحة أكبر. ومع ذلك، فإن نماذج الترجمة متعددة اللغات الحالية تواجه تحديا شديدا: عدم التوازن. نتيجة لذلك، فإن أداء الترجمة من لغات مختلفة في نماذج الترجمة متعددة اللغات مختلفة تماما. نقول أن مشكلة الاختلال هذه تنبع من كفاءات التعليم المختلفة لغات مختلفة. لذلك، نحن نركز على تحقيق التوازن بين الكفاءات التعليمية لغات مختلفة واقتراح مناهج التعلم القائم على الكفاءة للترجمة الآلية متعددة اللغات، والتي تسمى CCL-M. على وجه التحديد، نقوم أولا بتحديد كفاءتين للمساعدة في جدولة لغات الموارد العالية (HRLS) ولغات المورد المنخفضة: 1) الكفاءة التي تم تقييمها ذاتيا، وتقييم مدى تعلم اللغة نفسها؛ 2) الكفاءة التي تم تقييمها HRLS، وتقييم ما إذا كانت LRL جاهزة للتعلم وفقا لخلاف HRLS الذي تم تقييمه الذاتي. استنادا إلى الكفاءات المذكورة أعلاه، نستخدم خوارزمية CCL-M المقترحة إضافة لغات جديدة تدريجيا في التدريب المحدد بطريقة تعلم المناهج الدراسية. علاوة على ذلك، نقترح استراتيجية أخذان رصاصة ديناميكية متوازنة من الكفاءة النووية لتحسين عينات التدريب بشكل أفضل في التدريب متعدد اللغات. تظهر النتائج التجريبية أن نهجنا حقق مكاسب أداء ثابتة وهامة مقارنة بالنهج السابق للدولة السابقة بشأن مجموعة بيانات محادثات تيد.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

عادة ما يتم تكليف الترجمة الآلية العصبية متعددة الموارد (MNMT) بتحسين أداء الترجمة على أزواج لغة واحدة أو أكثر بمساعدة أزواج لغة الموارد عالية الموارد.في هذه الورقة، نقترح اثنين من المناهج البحث البسيطة القائمة على البحث - طلب بيانات التدريب المتعدد اللغات - والتي تساعد على تحسين أداء الترجمة بالاقتران مع التقنيات الحالية مثل الضبط الدقيق.بالإضافة إلى ذلك، نحاول تعلم منهجا من المناهج الدراسية من MNMT من الصفر بالاشتراك مع تدريب نظام الترجمة باستخدام قطاع الطرق متعددة الذراع السياقية.نعرض على مجموعة بيانات الترجمة المنخفضة من Flores التي يمكن أن توفر هذه المناهج المستفادة نقاطا أفضل للضبط وتحسين الأداء العام لنظام الترجمة.
وقد وجدت الأعمال الحديثة دليلا على التحيز بين الجنسين في نماذج من الترجمة الآلية ودقة Aquerence باستخدام مجموعات بيانات التشخيص الاصطناعية في الغالب. في حين أن هذه التحيز الكمي في تجربة خاضعة للرقابة، فإنها غالبا ما تفعل ذلك على نطاق صغير وتتكون في م عظمها من الجمل الاصطناعية، خارج التوزيع. في هذا العمل، نجد أنماط نحوية تشير إلى مهام الدورانية النمطية وغير النمطية (مثل الممرضات الإناث مقابل الراقصين الذكور) في كوربورا من ثلاثة مجالات، مما أدى إلى أول مجموعة بيانات BIAS الجنسية على نطاق واسع من 108 ألفا جمل. نحن نتحقق يدويا من جودة Corpus الخاصة بنا واستخدامها لتقييم التحيز بين الجنسين في نماذج تحليل الأسلحة الأساسية المختلفة ونماذج الترجمة الآلية. نجد أن جميع النماذج المختبرة تميل إلى الإفراط في الاعتماد على الصور النمطية الجنسانية عند تقديمها مع المدخلات الطبيعية، والتي قد تكون ضارة بشكل خاص عند نشرها في النظم التجارية. أخيرا، نظيرنا على أن مجموعة بياناتنا تضفي نفسها على نموذج دقة COMEARCASE، ويجد أن يجدد التحيز على مجموعة مشغولة. تتوفر DataSet ونماذجنا علنا ​​في Github.com/slab-nlp/bug. نأمل أن يحفزون البحوث المستقبلية في تقنيات تخفيف تقييم التقييم بين الجنسين في الإعدادات الواقعية.
تتطلب أساليب التعلم المنهج الحالية للترجمة الآلية العصبية (NMT) أخذ العينات مبالغ كافية من العينات "من بيانات التدريب في مرحلة التدريب المبكر. هذا غير قابل للتحقيق دائما لغات الموارد المنخفضة حيث تكون كمية البيانات التدريبية محدودة. لمعالجة مثل هذا ا لقيد، نقترح نقه نهج تعليمي مناهج رواية حكيمة ينشئ كميات كافية من العينات السهلة. على وجه التحديد، يتعلم النموذج التنبؤ بتسلسل فرعي قصير من الجزء التالي من كل جملة مستهدفة في المرحلة المبكرة للتدريب. ثم يتم توسيع التسلسل الفرعي تدريجيا مع تقدم التدريب. مثل هذا التصميم المناهج الدراسي الجديد مستوحى من التأثير التراكمي لأخطاء الترجمة، مما يجعل الرموز الأخيرة أكثر تحديا للتنبؤ أكثر من البداية. تبين تجارب واسعة أن نهجنا يمكن أن تتفوق باستمرار على الأساس على خمسة أزواج لغات، خاصة لغات الموارد المنخفضة. يجمع بين نهجنا مع طرق مستوى الجملة يحسن أداء لغات الموارد العالية.
تطوير نموذج متعدد اللغات موحدة كان هدف متابعة طويلا للترجمة الآلية.ومع ذلك، فإن الأساليب الحالية تعاني من تدهور الأداء - نموذج واحد متعدد اللغات أدنى من المتدربين بشكل منفصل ثنائي اللغة على لغات الموارد الغنية.نحن نقوم بالتخمين أن مثل هذه الظاهرة من المقرر أن تدخل جلبت عن طريق التدريب المشترك مع لغات متعددة.لاستيعاب المشكلة، نقترح CAIT، وهو نموذج محول تكييف مع معلمة صغيرة للنفقات العامة للترجمة الآلية متعددة اللغات.نقيم CAIT على مجموعات بيانات معيار متعددة، بما في ذلك IWSLT، OPUS-100، و WMT.تشير التجارب إلى أن CAIT تتفوق باستمرار على خطوط أساسية قوية متعددة اللغات في 64 من إجمالي 66 اتجاهات لغة، 42 منها أعلى من 0.5 تحسين بلو.
نقترح مخطط تكييف المفردات المباشر لتوسيع نطاق القدرة اللغوية لنماذج الترجمة متعددة اللغات، مما يمهد الطريق نحو التعلم المستمر الفعال للترجمة الآلية متعددة اللغات.نهجنا مناسب لمجموعات البيانات واسعة النطاق، ينطبق على اللغات البعيدة مع البرامج النصية غ ير المرئية، وتحتل التدهور البسيط فقط على أداء الترجمة لأزواج اللغة الأصلية ويوفر أداء تنافسي حتى في الحالة التي نمتلك فيها بيانات أحادية الألوان فقط للغات الجديدة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا