ترغب بنشر مسار تعليمي؟ اضغط هنا

ترجمة لغوية مماثلة ل catalan والبرتغالية والإسبانية باستخدام ماريان NMT

Similar Language Translation for Catalan, Portuguese and Spanish Using Marian NMT

237   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة مساهمة Sebamat بمهمة مشتركة بين 2021 WMT Translation.باستخدام مجموعة أدوات الترجمة الآلية العصبية Marian، تم بناء أنظمة الترجمة القائمة على بنية محولات Google في كلا الاتجاهين في الكاتالونية - الإسبانية والبرتغالية - الإسبانية.تم تدريب الأنظمة على اثنين من إعدادات المعلمة مناقصة (أحجام مختلفة لمفردات لترميز زوج البايت) باستخدام العرض الموازي ولكن ليس فقط الشركة المقارنة منظمي المهام المشتركة.وفقا لنتائج التقييم الرسمية الخاصة بهم، تبين أن نظام Sebamat تنافسي مع الترتيب بين أفضل الفرق وعشرات بلو بين 38 و 47 لأزواج اللغة التي تنطوي على البرتغالية وبين 76 و 80 لأزواج اللغة التي تنطوي على الكاتالونية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم التركيز الفكرة الرئيسية لهذا الحل على التركيز على تنظيف Corpus وإعدادها وبعد ذلك، استخدم حل خارج مربع (OpenNMT) مع طراز المحولات المنشور الافتراضي.لإعداد Corpus، استخدمنا مجموعة من الأدوات القياسية (كبرامج نصية موسى أو حزم بيثون)، ولكن أيضا، من بي ن البرامج النصية الثابتة الأخرى، ومزخرفة مخصصة لبثون مع القدرة على استبدال الأرقام للمتغيرات، حل مشكلة العلوي / السفلي للحالةالمفردات وتوفير تجزئة جيدة لمعظم علامات الترقيم.لقد بدأنا أيضا خطا لتنظيف Corpus بناء على تقدير الاحتمالات الإحصائية ل Corpus المستهدف المصدر، مع نتائج غير واضحة.أيضا، لقد قمت بتشغيل بعض الاختبارات مع تجزئة الكلمات المقاطعة، مرة أخرى بنتائج غير واضحة، لذلك في النهاية، بعد تكتيح جملة Word، استخدمنا جملة BPE الخاصة بوحدات الكلمات الفرعية لتغذية OpenNMT.
نحن نحقق في التعلم التحويل بناء على نماذج الترجمة الآلية المدربة مسبقا للترجمة بين (الموارد المنخفضة) اللغات المشابهة.هذا العمل هو جزء من مساهمتنا في المهمة المشتركة لغات WMT 2021 بمثابة مهمة مشتركة حيث أرسلنا نماذج لأزواج اللغة المختلفة، بما في ذلك الفرنسية-بامبارا والإسبانية الكاتالونية والإسبانية والبرتغالية في كلا الاتجاهين.نماذجنا للكاتالان الإسبانية (82.79 بلو) والبرتغالية-الإسبانية (87.11 بلو) المرتبة الأولى في تقييم المهام المشتركة الرسمية، ونحن الفريق الوحيد لتقديم نماذج لأزواج بامبارا الفرنسية.
طبقات محول خفيفة الوزن، وحدات يمكن إدراجها بين طبقات المحولات. يستكشف العمل الأخير باستخدام مثل هذه الطبقات للترجمة الآلية العصبية (NMT)، لتكييف النماذج المدربة مسبقا إلى مجالات جديدة أو أزواج لغة، والتدريب فقط مجموعة صغيرة من المعلمات لكل إعداد جديد (زوج لغة أو مجال). في هذا العمل، ندرس تكوين محولات اللغة والمجال في سياق الترجمة الآلية. نحن نهدف إلى الدراسة، 1) التكيف الفعال مع المعلمة إلى مجالات متعددة ولغات في وقت واحد (سيناريو الموارد الكاملة) و 2) نقل عبر اللغات في المجالات حيث تكون البيانات الموازية غير متوفرة لأزواج لغة معينة (سيناريو الموارد الجزئية). نجد أنه في سيناريو الموارد الجزئي مزيجا ساذجا من محولات محولات خاصة بالمجال وغالبا ما ينتج عن النسيان الكارثي باللغات المفقودة. ندرس طرق أخرى للجمع بين المحولات لتخفيف هذه المشكلة وتعظيم التحويل عبر اللغات. من خلال أفضل مجموعات محول لدينا، نحصل على تحسينات من 3-4 بلو في المتوسط ​​لغات المصدر التي لا تملك بيانات داخل المجال. بالنسبة للغات المستهدفة دون بيانات داخل المجال، نحقق تحسن مماثل عن طريق الجمع بين المحولات بالترجمة الخلفي. تتوفر مواد تكميلية في https://tinyurl.com/r66stbxj.
انفجار المحتوى الذي أنشأه المستخدم (UGC) --- E.G. وظائف وتعليقات وسائل التواصل الاجتماعي والتعليقات والمراجعات --- تحفز تطوير تطبيقات NLP مصممة على هذه الأنواع من النصوص غير الرسمية. السائدة بين هذه التطبيقات كانت تحليل المعنويات والترجمة الآلية (MT) . حول الملاحظة التي تتميز بها UGC لغة مشحونة بالثريات والمعنوية للغاية ونقترح نهج من جانب فك الترميز الذي يشتمل على الثقة التلقائية التي يتم تسجيلها في عملية اختيار مرشح MT. نحن ندرب مصنف المعنويات أحادية الأنتجة باللغة الإنجليزية والإسبانية بالإضافة إلى نموذج معنويات متعددة اللغات وثقل Berting Berting Bert و XLM-Roberta. باستخدام N-Best المرشحين الناتج عن نموذج خط الأساس MT مع البحث الشعاع ونختار المرشح الذي يقلل من الفرق المطلق بين درجة المعنويات من جملة المصدر والترجمة وأداء تقييمين بشري لتقييم الترجمات المنتجة. على عكس العمل السابق ونحن نقوم بتحديد هذا الترجمة المتباينة على الحد الأدنى من خلال النظر في درجات المعنويات من جملة المصدر والترجمة على الفاصل الزمني المستمر وبدون استخدام E.G. التصنيف الثنائي والسماح باختيار أكثر غرامة من مرشحي الترجمة. تظهر نتائج التقييمات البشرية أنه وبالمقارنة مع نموذج خط الأساس MT مفتوح المصدر على رأسه مبني أن خط أنابيب القائم على المعنويات مبنية وينتج خط أنابيبنا ترجمة أكثر دقة للنصوص المصدر الثقيلة العامية والمعنويات.
تراجع الجملة هي تقنية تكييف مجال بسيطة وقوية.نقوم بإجراء تصنيف النطاق لحساب الحوسبة أوزان مع 1) نموذج اللغة Cross Entropy الفرق 2) شبكة عصبية تشفيرية 3) شبكة توتور العصبية العودية.قارنا هذه الأساليب فيما يتعلق بدقة تصنيف المجال ودراسة توزيع الاحتمالا ت الخلفية.ثم نقوم بتنفيذ تجارب NMT في السيناريو حيث ليس لدينا فورانيا متوازية في المجال وعلى الفورورا المحدودة في المجال.هنا ونحن نستخدم مصنف المجال للاعتقال جمل كوربوس التدريب خارج المجال.هذا يؤدي إلى تحسينات تصل إلى 2.1 بلو للترجمة الألمانية إلى الإنجليزية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا