ترغب بنشر مسار تعليمي؟ اضغط هنا

الترجمة الآلية العصبية في إعداد الموارد المنخفضة: دراسة حالة في زوج اللغة الإنجليزية الماراثي

Neural Machine Translation in Low-Resource Setting: a Case Study in English-Marathi Pair

403   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة ونحن نستكشف تقنيات مختلفة للتغلب على تحديات الموارد المنخفضة في الترجمة الآلية العصبية (NMT) وتركز على وجه التحديد على حالة اللغة الإنجليزية الماراثية NMT. تتطلب أنظمة NMT كمية كبيرة من كورسا الموازية للحصول على ترجمات ذات نوعية جيدة. نحاول تخفيف مشكلة الموارد المنخفضة عن طريق زيادة Corpora الموازية أو باستخدام تعلم النقل. تستخدم تقنيات مثل حقن الجدول العبارة (PTI) والترجمة الخلفي وخلط لغة اللغة لتعزيز البيانات الموازية؛ في حين أن المظلات المحورية والمحسبات متعددة اللغات تستخدم للاستفادة من تعلم التحويل. بالنسبة للمحور المحوري، تأتي الهندية في اللغة المساعدة للترجمة الإنجليزية المهاراتية. بالمقارنة مع نموذج محول الأساس، يلاحظ اتجاه تحسن كبير في درجة بلو عبر تقنيات مختلفة. لقد قمنا بإجراء تقييم واسع النطاق والتولي والنوعي لأنظمنا. نظرا لأن الاتجاه في الترجمة الآلية (MT) اليوم هو ما بعد التحرير وقياس الحد من الجهود البشرية (لها)، ونعطينا ملاحظاتنا الأولية لمعدل تحرير الترجمة (TER) مقابل دراسة درجة بلو وحيث يعتبر TER كتدبير لها.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نصفنا (Team - Onenlp-IITH) مناهج الترجمة الآلية العصبية الخاصة بنا للماراثية الإنجليزية (كلا الاتجاه) ل LORESMT-20211.جربنا الترجمة الآلية العصبية القائمة على المحولات واستكشف استخدام ميزات لغوية مختلفة مثل نقاط البيع والتحول في وحدة ا لكلمات الفرعية لكل من اللغة الإنجليزية والماراثية والإنجليزية.بالإضافة إلى ذلك، استكشفنا أيضا الترجمة إلى الأمام والخلف باستخدام بيانات مونولجة الزحف على الويب.حصلنا على 22.2 (عموما 2 ND) و 31.3 (إجمالي 1 سانت) درجات بلو للإنجليزية - المراثي والماراثي - الإنجليزية على التوالي
تقدم التطورات الحديثة في الترجمة الآلية العصبية غير المدعومة (IPNMT) من الفجوة بين أداء ترجمة الآلات الخاضعة للإشراف وغير المعروضة لأزواج اللغة ذات الصلة عن كثب. ومع ذلك، والوضع مختلف جدا على أزواج اللغة البعيدة. يؤدي نقص التداخل في المعجم وانخفاض ال تشابه النحوي، مثل اللغة الإنجليزية واللغات الهندية إلى ضعف جودة الترجمة في أنظمة IPS الحالية. في هذه الورقة، نعرض أن تهيئة طبقة التضمين من طرازات التضمين من طرازات بروتوكول الكثال الكثال الكربون البرمجية مع ادبات متبلة يؤدي إلى تحسينات نقاط بلو كبيرة على نماذج IPS الحالية حيث تتم تهيئة أوزان طبقة تضمينها بشكل عشوائي. مما يؤدي وتجميد الأوزان طبقة التضمين إلى تحسين مكاسب أفضل مقارنة بتحديث أوزان طبقة تضمينها أثناء التدريب. لقد جربنا باستخدام تسلسل ملثمين للتسلسل (الكتلة) وتدينك مناهج AUTONCONDER (DAE) لنهج البث لمدة ثلاث أزواج لغة بعيدة. تهيئة تضمين التضمين المتبادلة المقترحة تحسن نتيجة بلو ما يصل إلى عشر مرات فوق خط الأساس للإنجليزية-الهندية والإنجليزية-البنغالية والإنجليزية-الغوجاراتية. يوضح تحليلنا أن تهيئة طبقة التضمين مع رسم خرائط تضمين التضمين الساكنة ضرورية لتدريب نماذج بعثة الأمم المتحدة في غول الرصاص على أزواج اللغة البعيدة.
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال مهمة، استغلنا بيانات أحادية الأونلينغ عن طريق تضيير Word مسبقا في Transformer Model Necural Translation للتعامل مع قيود Corpus الموازية.لقد حقق نموذجنا تقييم ثنائي اللغة التقييم (بلو) 0.05، درجة التقييم البديهات بديهية سهلة اللغة (RIBES) في المرتبة (RIBES) من 24.80 ونتيجة معدل تحرير الترجمة من 97.24 لكل من Tamil-to-Telugu و Teluguترجمات التاميل على التوالي.
تحفز الوجود الواسع للغة الهجومية على وسائل التواصل الاجتماعي تطوير أنظمة قادرة على الاعتراف بهذا المحتوى تلقائيا.بصرف النظر عن بعض الاستثناءات البارزة، فإن معظم الأبحاث حول تحديد اللغة الهجومية التلقائية تعامل مع اللغة الإنجليزية.لمعالجة هذا القصور، نقدم العفن، مجموعة بيانات اللغة المهاراتية الهجومية.القالب هو أول مجموعة بيانات من نوعها مترجمة للأمراثي، مما يفتح مجالا جديدا للبحث في لغات Indo-Arian منخفضة الموارد.نقدم النتائج من العديد من تجارب التعلم الآلي على هذه البيانات، بما في ذلك تجارب التعلم الصفر القصيرة وغيرها من عمليات التعلم على المحولات عبر اللغات الحديثة من البيانات الحالية في البنغالية والإنجليزية والهندية.
بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم ا يحدد NMT (SSNMT) بشكل مرئي جمل متوازية في بيانات وقابلة للمقارنة أصغر.لهذا التاريخ، لم يتم التحقيق في تقنيات توليد بيانات UMT في SSNMT.نظهر أنه بما في ذلك تقنيات UMT في SSNMT تتفوق بشكل كبير SSNMT (يصل إلى +4.3 بلو و AF2EN) بالإضافة إلى خطوط خطوط إحصائية (+50.8 بلو) و Sybrid UMT (+51.5 بلو) على أزواج لغة ذات صلة وغير ذات صلة وغير ذات صلة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا