ترغب بنشر مسار تعليمي؟ اضغط هنا

حل T4T: WMT21 مهمة لغة مماثلة لزوج اللغة الإسبانية الكاتالونية والإسبانية والبرتغالية

T4T Solution: WMT21 Similar Language Task for the Spanish-Catalan and Spanish-Portuguese Language Pair

188   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم التركيز الفكرة الرئيسية لهذا الحل على التركيز على تنظيف Corpus وإعدادها وبعد ذلك، استخدم حل خارج مربع (OpenNMT) مع طراز المحولات المنشور الافتراضي.لإعداد Corpus، استخدمنا مجموعة من الأدوات القياسية (كبرامج نصية موسى أو حزم بيثون)، ولكن أيضا، من بين البرامج النصية الثابتة الأخرى، ومزخرفة مخصصة لبثون مع القدرة على استبدال الأرقام للمتغيرات، حل مشكلة العلوي / السفلي للحالةالمفردات وتوفير تجزئة جيدة لمعظم علامات الترقيم.لقد بدأنا أيضا خطا لتنظيف Corpus بناء على تقدير الاحتمالات الإحصائية ل Corpus المستهدف المصدر، مع نتائج غير واضحة.أيضا، لقد قمت بتشغيل بعض الاختبارات مع تجزئة الكلمات المقاطعة، مرة أخرى بنتائج غير واضحة، لذلك في النهاية، بعد تكتيح جملة Word، استخدمنا جملة BPE الخاصة بوحدات الكلمات الفرعية لتغذية OpenNMT.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مساهمة Sebamat بمهمة مشتركة بين 2021 WMT Translation.باستخدام مجموعة أدوات الترجمة الآلية العصبية Marian، تم بناء أنظمة الترجمة القائمة على بنية محولات Google في كلا الاتجاهين في الكاتالونية - الإسبانية والبرتغالية - الإسبانية.تم تدريب الأنظمة على اثنين من إعدادات المعلمة مناقصة (أحجام مختلفة لمفردات لترميز زوج البايت) باستخدام العرض الموازي ولكن ليس فقط الشركة المقارنة منظمي المهام المشتركة.وفقا لنتائج التقييم الرسمية الخاصة بهم، تبين أن نظام Sebamat تنافسي مع الترتيب بين أفضل الفرق وعشرات بلو بين 38 و 47 لأزواج اللغة التي تنطوي على البرتغالية وبين 76 و 80 لأزواج اللغة التي تنطوي على الكاتالونية.
أصبح الكشف والتحليلات الهجومية تحليلها مجالا رئيسيا للبحث في معالجة اللغة الطبيعية.تعرض حرية المشاركة في وسائل التواصل الاجتماعي مستخدمين عبر الإنترنت للمشاركات المصممة للتشويه أو إهانة أو تؤذيها وفقا للجنس أو العرق أو الدين أو الإيديولوجية أو الخصائ ص الشخصية الأخرى.مع التركيز على المصانعين الشباب من المنصات الاجتماعية المعروفة في Twitter، Instagram، و YouTube، قمنا بجمع كوربوس يتكون من 47،128 تعليقات إسبانية يدويا على الفئات المعروفة الهجومية.تعلق مجموعة فرعية من الجثة درجة من الثقة لكل ملصق، لذلك من الممكن أن كل من تصنيف متعدد الطبقات ودراسات الانحدار المتعدد الناتج ممكن.في هذه الورقة، نقدم كوربوس، ومناقشة عملية بناءها، والمستجدات، وبعض التجارب الأولية معها لتكون خطاس أساسي لمجتمع البحث.
في هذا العمل، تم تطوير وتقييم وتقييم أنظمة الترجمة الآلية العصبيةين كجزء من BILIRECTIONAL TAMIL-TELUGU Transmation Language Translation Transke Subtask في WMT21. تم استخدام مجموعة أدوات OpenNMT-PY لإنشاء النماذج النماذج الخاصة بالأنظمة السريعة، والتي تتابع النماذج التي تم تدريبها على مجموعات البيانات التدريبية التي تحتوي على Corpus الموازي وأخيرا تم تقييم النماذج على مجموعات بيانات Dev المقدمة كجزء من المهمة. تم تدريب كل من الأنظمة على محطة DGX مع 4 -V100 GPUs. أول نظام NMT في هذا العمل هو طراز ترميز تشفير من 6 طبقة محول، تدرب على 100000 خطوة تدريبية، مما يشبه تكوينه الجديد الذي يوفره OpenNMT-PY وهذا يستخدم لإنشاء نموذج للحصول على ترجمة ثنائية الاتجاه. يحتوي نظام NMT الثاني على نماذج ترجمة أحادية الاتجاه مع نفس التكوين كنظام أول كأول، مع إضافة ترميز زوج البايت البايت (BPE) لتخشيص الكلمات الفرعية من خلال طراز MultiBPEMB المدرب مسبقا. بناء على مقاييس تقييم DEV DataSet لكل من النظم، فإن النظام الأول I.E. لقد تم تقديم نموذج محول الفانيليا كنظام أساسي. نظرا لعدم وجود تحسينات في المقاييس أثناء تدريب النظام الثاني مع BPE، فقد تم تقديمه كأنظمة مضادة للتناقض.
نحن نحقق في التعلم التحويل بناء على نماذج الترجمة الآلية المدربة مسبقا للترجمة بين (الموارد المنخفضة) اللغات المشابهة.هذا العمل هو جزء من مساهمتنا في المهمة المشتركة لغات WMT 2021 بمثابة مهمة مشتركة حيث أرسلنا نماذج لأزواج اللغة المختلفة، بما في ذلك الفرنسية-بامبارا والإسبانية الكاتالونية والإسبانية والبرتغالية في كلا الاتجاهين.نماذجنا للكاتالان الإسبانية (82.79 بلو) والبرتغالية-الإسبانية (87.11 بلو) المرتبة الأولى في تقييم المهام المشتركة الرسمية، ونحن الفريق الوحيد لتقديم نماذج لأزواج بامبارا الفرنسية.
تعنى هذه الورقة بموضوع العدالة الإلهية في مسرحية المأساة الإسبانية (1592) للكاتب الإنكليزي الإليزابيثي الشهير توماس كيد ( 1558-1594 ). تعرف هذه الورقة مصطلحا تعليميا ثم تنتقل إلى مناقشة المسرحية المصغرة البرتغلية في ( المأساة الإسبانية ) بوصفها مسرحي ة قصيرة ضمن المسرحية الأساس التي تكشف قضية القضاء الإلهي. و تخلص هذه الورقة إلى التأكيد أن هذه المسرحية هي مأساة عدالة و عقاب دينيين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا