ترغب بنشر مسار تعليمي؟ اضغط هنا

Multitrainmt: مواد تدريبية للنهج الترجمة الآلية العصبية من الصفر

MultiTraiNMT: Training Materials to Approach Neural Machine Translation from Scratch

462   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يهدف مشروع Multitrainmt Erasmus + + إلى تطوير منهج مبتكر مفتوح في الترجمة الآلية العصبية (NMT) للمتعلمين اللغوي والمترجمين كمواطنين متعدد اللغات.ينظر إلى الترجمة الآلية كمورد يمكن أن يدعم المواطنين في محاولتهم للحصول على المهارات اللغوية وتطويرها إذا تم تدريبهم بطريقة مستنيرة وحاسمة.وبالتالي يمكن أن تساعد الترجمة الآلية في معالجة عدم التطابق بين الاتحاد الأوروبي المطلوب من وجود مواطنين متعدد اللغات الذين يتحدثان لغتين أجنبية على الأقل والوضع الحالي الذي يسقط المواطنون بشكل عام هذا الهدف عموما.تتكون المواد التدريبية من كتاب سيارات مفتوح، وهو تطبيق ويب مفتوح المصدر يسمى Mutnmt لأغراض التدريب، والأنشطة المقابلة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

عادة ما يتم تكليف الترجمة الآلية العصبية متعددة الموارد (MNMT) بتحسين أداء الترجمة على أزواج لغة واحدة أو أكثر بمساعدة أزواج لغة الموارد عالية الموارد.في هذه الورقة، نقترح اثنين من المناهج البحث البسيطة القائمة على البحث - طلب بيانات التدريب المتعدد اللغات - والتي تساعد على تحسين أداء الترجمة بالاقتران مع التقنيات الحالية مثل الضبط الدقيق.بالإضافة إلى ذلك، نحاول تعلم منهجا من المناهج الدراسية من MNMT من الصفر بالاشتراك مع تدريب نظام الترجمة باستخدام قطاع الطرق متعددة الذراع السياقية.نعرض على مجموعة بيانات الترجمة المنخفضة من Flores التي يمكن أن توفر هذه المناهج المستفادة نقاطا أفضل للضبط وتحسين الأداء العام لنظام الترجمة.
عادة ما يتم تدريب نماذج الترجمة الآلية العصبية (NMT) باستخدام فقدان انتروبيا Softmax حيث يتم مقارنة توزيع SoftMax بالملصقات الذهبية. في سيناريوهات منخفضة الموارد ونماذج NMT تميل إلى الأداء بشكل سيئ لأن التدريب النموذجي يتقارن بسرعة إلى نقطة حيث يتجاه ل توزيع SoftMax باستخدام تسجيل الدخول إلى توزيع تسمية الذهب. على الرغم من أن تجانس الملصقات هو حل مشهور لمعالجة هذه المشكلة، فإننا نقترح مزيد من اقتراح تقسيم السجلات بواسطة معامل درجة الحرارة أكبر من واحد وإجبار توزيع SoftMax على أن يكون أكثر سلاسة أثناء التدريب. هذا يجعل من الصعب على النموذج بسرعة أكثر من اللازم. في تجاربنا على 11 أزواج لغوية في مجموعة بيانات Treebank الآسيوية المنخفضة الموارد، لاحظنا تحسينات كبيرة في جودة الترجمة. يركز تحليلنا على إيجاد التوازن الصحيح من تجانس الملصقات و SoftMax STIVING والتي تشير إلى أنها طرق متعامدة. وأخيرا، تكشف دراسة الانترشيات والتجميلات SoftMax عن تأثير طريقتنا على السلوك الداخلي لنماذج NMT الخاصة بنا.
تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من أنواع الرمز المميز (256) من الأبعاد.من المستغرب، استبدال طبقة التضمين في كل مكان بتمثيلات ساخنة لكل بايت لا تؤذي الأداء؛تظهر التجارب في الترجمة الآلية بايت إلى بايت من الإنجليزية إلى 10 لغات مختلفة تحسنا ثابتا في بلو، ومستوى الطابع المتنافس وحتى نماذج مستوى الكلمات الفرعية القياسية.يكشف التحقيق الأعمق أن مزيج من نماذج تضمينه مع ترميز مفاتيح المدخلات بمبالغ الرمز إلى التسرب الرمزي، والذي يفيد نماذج بايت إلى بايت بشكل خاص.
تقدم الورقة تجارب في الترجمة الآلية العصبية مع القيود المعجمية في لغة غنية مورمية.على وجه الخصوص، نقدم طريقة واستنادا إلى فك التشفير المقيد والتي تتعامل مع الأشكال المصدرة للإدخالات المعجمية ولا تتطلب أي تعديل بيانات التدريب أو الهندسة المعمارية النم وذجية.لتقييم فعاليتها ونقوم بإجراء تجارب في سيناريوهات مختلفة: عام ومخصص خاص.قارنا طريقنا مع ترجمة خط الأساس، وهي ترجمة بدون قيود معجمية ومن حيث سرعة الترجمة وجودة الترجمة.لتقييم مدى جودة معالجة القيود ونقترح مقاييس تقييم جديدة تأخذ في الاعتبار وجود وتنسيب وازدواجية وصحة الانهيار المصطلحات المعجمية في جملة الإخراج.
حققت الترجمة الآلية العصبية غير التلقائية، التي تتحلل الاعتماد على الرموز المستهدفة السابقة من مدخلات وحدة فك التشفير، تسريع استنتاج مثير للإعجاب ولكن بتكلفة الدقة السفلى. Works السابق توظف فك تشفير تكريري لتحسين الترجمة عن طريق تطبيق تكرارات تحسين م تعددة. ومع ذلك، فإن العيب الخطير هو أن هذه الأساليب تعرض الضعف الخطير في الاعتراف بقطع الترجمة الخاطئة. في هذه الورقة، نقترح بنية المعمارية المسماة rewritenat للتعلم صراحة إعادة كتابة قطع الترجمة الخاطئة. على وجه التحديد، يستخدم ReWritEnat وحدة تحديد المواقع لتحديد موقع تلك الخاطئة، والتي يتم تنقيحها بعد ذلك في الوحدة النمطية الصحيحة. نحو الحفاظ على اتساق توزيع البيانات مع فك التشفير التكراري، يتم استخدام استراتيجية تدريبية تكرارية لزيادة تحسين قدرة إعادة كتابة. تظهر تجارب واسعة أجريت على العديد من المعايير المستخدمة على نطاق واسع أن إعادة البيع يمكن أن تحقق أداء أفضل مع تقليل وقت فك التشفير بشكل كبير، مقارنة باستراتيجيات فك التشفير السابقة السابقة. على وجه الخصوص، يمكن إعادة كتابة النتائج التنافسية مع الترجمة التلقائية على معايير الترجمة AutoreGressive على معايير الترجمة WMT14 EN-DE، EN-FR و WMT16 RO-en.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا