ترغب بنشر مسار تعليمي؟ اضغط هنا

تعد Erblingual Embeddings ضرورية في UNMT للغات البعيدة: دراسة حالة الإنجليزية إلى Indooaryan

Crosslingual Embeddings are Essential in UNMT for distant languages: An English to IndoAryan Case Study

309   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم التطورات الحديثة في الترجمة الآلية العصبية غير المدعومة (IPNMT) من الفجوة بين أداء ترجمة الآلات الخاضعة للإشراف وغير المعروضة لأزواج اللغة ذات الصلة عن كثب. ومع ذلك، والوضع مختلف جدا على أزواج اللغة البعيدة. يؤدي نقص التداخل في المعجم وانخفاض التشابه النحوي، مثل اللغة الإنجليزية واللغات الهندية إلى ضعف جودة الترجمة في أنظمة IPS الحالية. في هذه الورقة، نعرض أن تهيئة طبقة التضمين من طرازات التضمين من طرازات بروتوكول الكثال الكثال الكربون البرمجية مع ادبات متبلة يؤدي إلى تحسينات نقاط بلو كبيرة على نماذج IPS الحالية حيث تتم تهيئة أوزان طبقة تضمينها بشكل عشوائي. مما يؤدي وتجميد الأوزان طبقة التضمين إلى تحسين مكاسب أفضل مقارنة بتحديث أوزان طبقة تضمينها أثناء التدريب. لقد جربنا باستخدام تسلسل ملثمين للتسلسل (الكتلة) وتدينك مناهج AUTONCONDER (DAE) لنهج البث لمدة ثلاث أزواج لغة بعيدة. تهيئة تضمين التضمين المتبادلة المقترحة تحسن نتيجة بلو ما يصل إلى عشر مرات فوق خط الأساس للإنجليزية-الهندية والإنجليزية-البنغالية والإنجليزية-الغوجاراتية. يوضح تحليلنا أن تهيئة طبقة التضمين مع رسم خرائط تضمين التضمين الساكنة ضرورية لتدريب نماذج بعثة الأمم المتحدة في غول الرصاص على أزواج اللغة البعيدة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم تطوير نماذج الترجمة للمجال المحدد لترجمة بيانات CovID من الإنجليزية إلى الأيرلندية لمهمة LORESMT 2021 المشتركة.تم تطبيق تقنيات التكيف عن المجال، باستخدام كوربوس 55K 55K تكييفها كوفي من المديرية العامة للترجمة.تم مقارنة أداء الدقيقة والضبط الجمنيات المختلطة ومقارنة أساليب البيانات المشتركة مع النماذج المدربة على مجموعة بيانات داخلية ممتدة.كجزء من هذه الدراسة، تم تطوير مجموعة بيانات باللغة الإنجليزية والأيرلندية من البيانات ذات الصلة بالكوفت، من المجالات الصحية والتعليمية.يستخدم نموذج أعلى مستوياته بنية محول مدربة مع مجموعة بيانات Covid داخل المجال.في سياق هذه الدراسة، أظهرنا أن تمديد مجموعة بيانات أساسية 8K داخل المجال من خلال خطوط 5K فقط تحسنت درجة بلو بمقدار 27 نقطة.
في هذه الورقة ونحن نستكشف تقنيات مختلفة للتغلب على تحديات الموارد المنخفضة في الترجمة الآلية العصبية (NMT) وتركز على وجه التحديد على حالة اللغة الإنجليزية الماراثية NMT. تتطلب أنظمة NMT كمية كبيرة من كورسا الموازية للحصول على ترجمات ذات نوعية جيدة. ن حاول تخفيف مشكلة الموارد المنخفضة عن طريق زيادة Corpora الموازية أو باستخدام تعلم النقل. تستخدم تقنيات مثل حقن الجدول العبارة (PTI) والترجمة الخلفي وخلط لغة اللغة لتعزيز البيانات الموازية؛ في حين أن المظلات المحورية والمحسبات متعددة اللغات تستخدم للاستفادة من تعلم التحويل. بالنسبة للمحور المحوري، تأتي الهندية في اللغة المساعدة للترجمة الإنجليزية المهاراتية. بالمقارنة مع نموذج محول الأساس، يلاحظ اتجاه تحسن كبير في درجة بلو عبر تقنيات مختلفة. لقد قمنا بإجراء تقييم واسع النطاق والتولي والنوعي لأنظمنا. نظرا لأن الاتجاه في الترجمة الآلية (MT) اليوم هو ما بعد التحرير وقياس الحد من الجهود البشرية (لها)، ونعطينا ملاحظاتنا الأولية لمعدل تحرير الترجمة (TER) مقابل دراسة درجة بلو وحيث يعتبر TER كتدبير لها.
ما مدى صعوبة ذلك بالنسبة لمتعلمي اللغة الإنجليزية (ESL) للغة الإنجليزية (ESL) قراءة النصوص الإنجليزية الصاخبة؟هل يحتاج المتعلمون ESL إلى التطبيع المعجمي لقراءة النصوص الإنجليزية الصاخبة؟قد تؤثر هذه الأسئلة أيضا على تكوين المجتمع على مواقع الشبكات الا جتماعية حيث يمكن أن تعزى الاختلافات إلى متعلمي ESL ومكبرات الصوت الإنجليزية الأصلية.ومع ذلك، فقد عالجت بعض الدراسات هذه الأسئلة.تحقيقا لهذه الغاية، بنينا مقيمين دقيقين للغاية لقراءة القراءة لتقييم قابلية قراءة النصوص للمتعلمين ESL.ثم طبقنا هذا المقيمين للنصوص الإنجليزية الصاخبة لمزيد من تقييم قابلية قراءة النصوص.أظهرت النتائج التجريبية أنه على الرغم من أن متعلمي ESL على المستوى المتوسطين يمكنهم قراءة معظم النصوص الإنجليزية الصاخبة في المقام الأول، فإن التطبيع المعجمي يحسن بشكل كبير من قراءة النصوص الإنجليزية الصاخبة للمتعلمين ESL.
نحن نستخدم مجموعة اختبار شبه آلية من أجل توفير تقييم لغوي محمول من أجل أنظمة الترجمة الآلية الحديثة. يشمل التقييم 18 الألمانية إلى الإنجليزية و 18 الإنجليزية إلى الألمانية، قدمت إلى مهمة مشتركة للترجمة بمؤتمر 2021 حول الترجمة الآلية. يضيف تقديمنا إلى إعدادات السنوات السابقة عن طريق إنشاء وتطبيق جناح اختبار واسع النطاق للغة الإنجليزية إلى الألمانية كزوج لغة جديدة. يسمح التقييم الراسخ في اكتشاف اختلافات كبيرة بين الأنظمة التي لا يمكن تمييزها من خلال التقييم المباشر لحملة التقييم البشرية. نجد أن معظم الأنظمة تحقق عقوبة جيدة في غالبية الظواهر اللغوية ولكن هناك عدد قليل من الظواهر مع دقة منخفضة، مثل التعابير، والمطبقة مشروط والمسندات الألمانية الناتجة. نظمتين تتمتعان بدقة اختبار أفضل بكثير في المتوسط ​​في المتوسط ​​الكلي في كل اتجاه لغة، عبر الإنترنت-W و Facebook-AI للألمانية إلى الإنجليزية والمرافقين وبرنامج Volctrans وعلى الإنترنت-W للإنجليزية إلى الألمانية. تظهر الأنظمة تحسنا مطردا مقارنة بالسنوات السابقة.
في هذه الورقة، نحدد نوعا مثيرا للاهتمام من الخطأ في إخراج أنظمة الترجمة الآلية العصبية غير الخاضعة للكشف عنها مثل Undreamt1. نشير إلى نوع الخطأ هذا كمحالة ترجمة مدخبة. نلاحظ أن نماذج UNMT التي تستخدم ضوضاء خلط ورق اللعب الكلمة (كما هو الحال في حالة U NTreamt) يمكن أن تولد كلمات صحيحة ولكنها تفشل في غرزة معا لتشكيل العبارات. نتيجة وكلمات الجملة المترجمة تبدو سارعت وانخفاض بلو. نحن نفترض أن السبب وراء مشكلة الترجمة المخفوقة هي "خلط الضوضاء" التي يتم تقديمها في كل جملة مدخلات كاستراتيجية دنيوية. لاختبار فرضيتنا ونحن نجيب من خلال إعادة تدريب نماذج بعثة الأمم المتحدة في غول الصين نقوم بتوقف عن تدريب نموذج Denoising UNMT بعد قررت التكرارات مسبقا واستئناف التدريب من أجل التكرارات المتبقية - أي رقم هو أيضا قررت مسبقا - باستخدام الجملة الأصلية كمدخل دون إضافة أي ضجيج. يحقق حلنا المقترح نماذج UNMT تحسين الأداء التي تتدرب تقليديا. نوضح هذه المكاسب الأداء في أربع أزواج ولغوية وبيزن. والإنجليزية-الفرنسية والإنجليزية والألمانية والإنجليزية-الإسبانية والبنجابية الهندية. يوضح تحليلنا النوعي والكمي أن استراتيجية إعادة التدريب يساعد على تحقيق محاذاة أفضل كما لوحظ من خلال الاهتمام Heatmap والترجمة الجملية الأفضل وأدى إلى تحسين إحصائيا في درجات بلو.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا