ترغب بنشر مسار تعليمي؟ اضغط هنا

الترجمة الآلية العصبية للتاميل - زوج التيلجو

Neural Machine Translation for Tamil--Telugu Pair

341   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه المهمة، استغلنا بيانات أحادية الأونلينغ عن طريق تضيير Word مسبقا في Transformer Model Necural Translation للتعامل مع قيود Corpus الموازية.لقد حقق نموذجنا تقييم ثنائي اللغة التقييم (بلو) 0.05، درجة التقييم البديهات بديهية سهلة اللغة (RIBES) في المرتبة (RIBES) من 24.80 ونتيجة معدل تحرير الترجمة من 97.24 لكل من Tamil-to-Telugu و Teluguترجمات التاميل على التوالي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مشاركة الفريق Onenlp (LTRC، IIIT-Hyderabad) لمهمة WMT 2021، ترجمة لغوية مماثلة.لقد جربنا الترجمة الآلية العصبية القائمة على المحولات واستكشف استخدام تشابه لغة Tamil-Telugu وتيلجو التاميل.لقد أدمجنا استخدام تكوينات الكلمات الفرعية المخت لفة، وتحويل البرنامج النصي والتدريب النموذجي الفردي لكلا الاتجاهين كجارب استكشافية.
في هذه الورقة ونحن نستكشف تقنيات مختلفة للتغلب على تحديات الموارد المنخفضة في الترجمة الآلية العصبية (NMT) وتركز على وجه التحديد على حالة اللغة الإنجليزية الماراثية NMT. تتطلب أنظمة NMT كمية كبيرة من كورسا الموازية للحصول على ترجمات ذات نوعية جيدة. ن حاول تخفيف مشكلة الموارد المنخفضة عن طريق زيادة Corpora الموازية أو باستخدام تعلم النقل. تستخدم تقنيات مثل حقن الجدول العبارة (PTI) والترجمة الخلفي وخلط لغة اللغة لتعزيز البيانات الموازية؛ في حين أن المظلات المحورية والمحسبات متعددة اللغات تستخدم للاستفادة من تعلم التحويل. بالنسبة للمحور المحوري، تأتي الهندية في اللغة المساعدة للترجمة الإنجليزية المهاراتية. بالمقارنة مع نموذج محول الأساس، يلاحظ اتجاه تحسن كبير في درجة بلو عبر تقنيات مختلفة. لقد قمنا بإجراء تقييم واسع النطاق والتولي والنوعي لأنظمنا. نظرا لأن الاتجاه في الترجمة الآلية (MT) اليوم هو ما بعد التحرير وقياس الحد من الجهود البشرية (لها)، ونعطينا ملاحظاتنا الأولية لمعدل تحرير الترجمة (TER) مقابل دراسة درجة بلو وحيث يعتبر TER كتدبير لها.
في هذه الورقة، نقدم نهجا جديدا لتكييف المجال في الجهاز العصبي الذي يهدف إلى تحسين جودة Thetranslation على نطاق جديد. إضافة مجالات جديدة هي مهمة عالية تحديا لبيانات الترجمة الآلية العصبية، يصبح أكثر عبادة منتشرةالمجالات الفنية مثل Chem-Istry والذكاء ا لاصطناعي بسبب مصطلحات Spe-Sicific، إلخ. نقترح أسلوب الترجمة الخلفي العجول Domainspecific والتي تنوع بيانات الأحادية المتوفرة والبيانات الاصطناعية العامة بطريقة مختلفة. هذا النهج يستخدم خارج الكلمات. النهجعام جدا ويمكن أن تقوم بالياف بأي زوج لغة لأي مجال.نقوم بإجراء تجاربنا على الكنديمان والذكاء الاصطناعي) من أجل اللغة الهندية والتيلجو في كل من direc-tions.وقد لوحظ أن استخدام البيانات الاصطناعية الاستخدام التي تم إنشاؤها بواسطة proposedalgorithm يحسن درجات بلو بشكل كبير.
في هذا العمل، تم تطوير وتقييم وتقييم أنظمة الترجمة الآلية العصبيةين كجزء من BILIRECTIONAL TAMIL-TELUGU Transmation Language Translation Transke Subtask في WMT21. تم استخدام مجموعة أدوات OpenNMT-PY لإنشاء النماذج النماذج الخاصة بالأنظمة السريعة، والتي تتابع النماذج التي تم تدريبها على مجموعات البيانات التدريبية التي تحتوي على Corpus الموازي وأخيرا تم تقييم النماذج على مجموعات بيانات Dev المقدمة كجزء من المهمة. تم تدريب كل من الأنظمة على محطة DGX مع 4 -V100 GPUs. أول نظام NMT في هذا العمل هو طراز ترميز تشفير من 6 طبقة محول، تدرب على 100000 خطوة تدريبية، مما يشبه تكوينه الجديد الذي يوفره OpenNMT-PY وهذا يستخدم لإنشاء نموذج للحصول على ترجمة ثنائية الاتجاه. يحتوي نظام NMT الثاني على نماذج ترجمة أحادية الاتجاه مع نفس التكوين كنظام أول كأول، مع إضافة ترميز زوج البايت البايت (BPE) لتخشيص الكلمات الفرعية من خلال طراز MultiBPEMB المدرب مسبقا. بناء على مقاييس تقييم DEV DataSet لكل من النظم، فإن النظام الأول I.E. لقد تم تقديم نموذج محول الفانيليا كنظام أساسي. نظرا لعدم وجود تحسينات في المقاييس أثناء تدريب النظام الثاني مع BPE، فقد تم تقديمه كأنظمة مضادة للتناقض.
تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من أنواع الرمز المميز (256) من الأبعاد.من المستغرب، استبدال طبقة التضمين في كل مكان بتمثيلات ساخنة لكل بايت لا تؤذي الأداء؛تظهر التجارب في الترجمة الآلية بايت إلى بايت من الإنجليزية إلى 10 لغات مختلفة تحسنا ثابتا في بلو، ومستوى الطابع المتنافس وحتى نماذج مستوى الكلمات الفرعية القياسية.يكشف التحقيق الأعمق أن مزيج من نماذج تضمينه مع ترميز مفاتيح المدخلات بمبالغ الرمز إلى التسرب الرمزي، والذي يفيد نماذج بايت إلى بايت بشكل خاص.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا