ترغب بنشر مسار تعليمي؟ اضغط هنا

ترجمة آلة Manipuri-English باستخدام Corpus

Manipuri-English Machine Translation using Comparable Corpus

465   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبح نموذج الترجمة الآلي غير المقترح (MT)، الذي لديه القدرة على أداء MT دون جمل متوازية باستخدام كورسا مماثلة، نهجا واعدا لتطوير MT بلغات الموارد المنخفضة.ومع ذلك، فإن غالبية الدراسات في MT غير المنشأة قد نظرت في أزواج لغوية غنية بالموارد ذات خصائص لغوية مماثلة.في هذه الورقة، نحقق في فعالية نماذج MT غير الخاضعة للكشف عن كائن قابلة للمقارنة من مانيبوري.Manipuri هي لغة موارد منخفضة لها خصائص لغوية مختلفة من اللغة الإنجليزية.تركز هذه الورقة على تحديد التحديات في بناء نماذج MT غير المقدمة على الكائنات القابلة للمقارنة.من الملاحظات التجريبية المختلفة، من الواضح أن تطوير MT على Corpus المقارنة باستخدام الأساليب غير المعروضة غير ممكن.علاوة على ذلك، تحدد الورقة أيضا الاتجاهات المستقبلية لتطوير MT فعالة لزوج لغة مانيبوري والإنجليزية في ظل سيناريوهات غير مخالفة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعلم الترجمة الآلية العصبية متعددة اللغات (MNMT) ترجمة أزواج متعددة اللغات بنموذج واحد، يحتمل أن يحسن كل من الدقة وكفاءة الذاكرة للنماذج المنتشرة. ومع ذلك، فإن عدم اختلال البيانات الثقيلة بين اللغات يعوق النموذج من الأداء بشكل موحد عبر أزواج اللغة. ف ي هذه الورقة، نقترح هدفا تعليميا جديدا ل MNMT بناء على التحسين القوي التويضي، مما يقلل من الخسارة المتوقعة الأسوأ في مجموعة أزواج اللغة. نوضح كذلك كيفية تحسين هذا الهدف من الناحية العملية للترجمة الكبيرة باستخدام مخطط أفضل استجابة مزخرف، وهو فعاليتان فعالة وتتحمل تكلفة حسابية إضافية ضئيلة مقارنة بقليل المخاطر التجريبية القياسية. نقوم بإجراء تجارب مكثفة على ثلاث مجموعات من اللغات من مجموعة بيانات وتظهر أن طريقتنا تتفوق باستمرار على أساليب خطية قوية من حيث المتوسط ​​والأداء لكل لغة تحت كلا من إعدادات الترجمة متعددة إلى واحدة وواحدة متعددة.
تصف هذه الورقة أن الأنظمة المقدمة إلى المهمة المشتركة Wat 2021 Multiindicmt بواسطة فريق IITP-MT.نحن نقدم اثنين من أنظمة الترجمة الآلية العصبية متعددة اللغات (NMT) (Inster-to-English والإنجليزية إلى MEDER).ننهي جميع بيانات MED وتخلق المفردات الفرعية ا لتي يتم مشاركتها بين جميع لغات ISS.نحن نستخدم نهج الترجمة الخلفي لتوليد البيانات الاصطناعية التي يتم إلحاقها بالتوازي Corpus وتستخدم لتدريب نماذجنا.يتم تقييم النماذج باستخدام درجات Bleu و Libes و AMFM مع نموذج MEDER-To-To-English يحقق 40.08 Bleu للزوج الهندي والإنجليزي ونموذج اللغة الإنجليزية إلى MERS لتحقيق 34.48 بلو للزوج باللغة الإنجليزية الهندية.ومع ذلك، نلاحظ أن مفردات الكلمة الفرعية المشتركة لا تساعد النموذج الإنجليزي إلى التروس في وقت الجيل، مما أدى إلى إنتاج ترجمات ذات نوعية رديئة للتاميل والتيلجو وميلايالام إلى أزواج باللغة الإنجليزية مع درجة بلو 8.51 و 6.25 و 3.79على التوالى.
عند بناء أنظمة الترجمة الآلات، يحتاج المرء في كثير من الأحيان إلى الاستفادة القصوى من مجموعات غير متجانسة من البيانات الموازية في التدريب، والتعامل مع المدخلات بقوة من المجالات غير المتوقعة في الاختبار.جذبت هذا السيناريو متعدد المجالات الكثير من العم ل الحديث الذي يقع تحت المظلة العامة لتعلم النقل.في هذه الدراسة، نشجع الترجمة متعددة المجالات، بهدف صياغة الدوافع لتطوير هذه الأنظمة والتوقعات المرتبطة فيما يتعلق بالأداء.تبين تجاربنا مع عينة كبيرة من أنظمة المجال متعددة أن معظم هذه التوقعات تلتقي بالكاد وتشير إلى أن هناك حاجة إلى مزيد من العمل لتحليل السلوك الحالي لأنظمة المجالات المتعددة وجعلها تمسك بوعودها بالكامل.
أصبح خلط التعليمات البرمجية طريقة متحركة للاتصال بين مكبرات الصوت متعددة اللغات. تتم كتابة معظم محتوى وسائل التواصل الاجتماعي للمجتمعات متعددة اللغات في النص المختلط من التعليمات البرمجية. ومع ذلك، فإن معظم أنظمة الترجمة الحالية إهمال تحويل النصوص ال مختلطة من التعليمات البرمجية إلى لغة قياسية. تظل معظم المحتوى المكتوب من المستخدمين من المستخدمين في وسائل الإعلام الاجتماعية غير المعتمدة بسبب عدم توفر الموارد اللغوية مثل Corpus الموازي. تقترح هذه الورقة نموذجا للترجمة الآلية العصبية (NMT) لترجمة النص المختلط بين السنهالية - الإنجليزية إلى لغة سنهالا. نظرا للموارد المحدودة المتاحة لنص Sinhala-English النص المختلط (SEMM)، يتم إنشاء Corpus الموازي مع جمل SEMM وجمل Sinhala. تحتوي مواقع وسائل التواصل الاجتماعي Srilankan على نصوص SEMM بشكل متكرر أكثر من اللغات القياسية. النموذج المقترح للترجمة النصية المختلطة في التعليمات البرمجية في هذه الدراسة هو مزيج من إطار فك تشفير التشفير مع وحدات LSTM والمعلمين تجبر الخوارزمية. يتم تقييم الجمل المترجمة من النموذج باستخدام متري بلو (تقييم ثنائي اللغة). حقق نموذجنا درجة بلو رائعة للترجمة.
في هذا العمل، نحقق في أساليب المهمة الصعبة المتمثلة في الترجمة بين أزواج لغة الموارد المنخفضة التي تظهر بعض مستوى التشابه.على وجه الخصوص، نعتبر فائدة نقل التعلم للترجمة بين العديد من لغات الموارد المنخفضة الأوروبية من الهند من الأسر الجرمانية والروما نسية.على وجه الخصوص، نبني اثنين من الطبقات الرئيسية من النظم القائمة على النقل لدراسة كيفية استخدام ترابط الأداء الترجمة.النظام الأساسي يضم النموذج الذي تم تدريبه مسبقا على زوج لغة ذات صلة ونظام قابل للتناقض بشكل جيد-قم بإلغاء التدريب مسبقا على زوج لغة غير ذات صلة.تبين تجاربنا أنه على الرغم من أن المرتبطة ليست ضرورية لنقل التعلم للعمل، إلا أنها تنفذ أداء نموذجي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا