ترغب بنشر مسار تعليمي؟ اضغط هنا

انخفاض الموارد لغة مشابهة الترجمة الآلية العصبية Tamil-Telugu

Low Resource Similar Language Neural Machine Translation for Tamil-Telugu

357   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة مشاركة الفريق Onenlp (LTRC، IIIT-Hyderabad) لمهمة WMT 2021، ترجمة لغوية مماثلة.لقد جربنا الترجمة الآلية العصبية القائمة على المحولات واستكشف استخدام تشابه لغة Tamil-Telugu وتيلجو التاميل.لقد أدمجنا استخدام تكوينات الكلمات الفرعية المختلفة، وتحويل البرنامج النصي والتدريب النموذجي الفردي لكلا الاتجاهين كجارب استكشافية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذا العمل، تم تطوير وتقييم وتقييم أنظمة الترجمة الآلية العصبيةين كجزء من BILIRECTIONAL TAMIL-TELUGU Transmation Language Translation Transke Subtask في WMT21. تم استخدام مجموعة أدوات OpenNMT-PY لإنشاء النماذج النماذج الخاصة بالأنظمة السريعة، والتي تتابع النماذج التي تم تدريبها على مجموعات البيانات التدريبية التي تحتوي على Corpus الموازي وأخيرا تم تقييم النماذج على مجموعات بيانات Dev المقدمة كجزء من المهمة. تم تدريب كل من الأنظمة على محطة DGX مع 4 -V100 GPUs. أول نظام NMT في هذا العمل هو طراز ترميز تشفير من 6 طبقة محول، تدرب على 100000 خطوة تدريبية، مما يشبه تكوينه الجديد الذي يوفره OpenNMT-PY وهذا يستخدم لإنشاء نموذج للحصول على ترجمة ثنائية الاتجاه. يحتوي نظام NMT الثاني على نماذج ترجمة أحادية الاتجاه مع نفس التكوين كنظام أول كأول، مع إضافة ترميز زوج البايت البايت (BPE) لتخشيص الكلمات الفرعية من خلال طراز MultiBPEMB المدرب مسبقا. بناء على مقاييس تقييم DEV DataSet لكل من النظم، فإن النظام الأول I.E. لقد تم تقديم نموذج محول الفانيليا كنظام أساسي. نظرا لعدم وجود تحسينات في المقاييس أثناء تدريب النظام الثاني مع BPE، فقد تم تقديمه كأنظمة مضادة للتناقض.
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال مهمة، استغلنا بيانات أحادية الأونلينغ عن طريق تضيير Word مسبقا في Transformer Model Necural Translation للتعامل مع قيود Corpus الموازية.لقد حقق نموذجنا تقييم ثنائي اللغة التقييم (بلو) 0.05، درجة التقييم البديهات بديهية سهلة اللغة (RIBES) في المرتبة (RIBES) من 24.80 ونتيجة معدل تحرير الترجمة من 97.24 لكل من Tamil-to-Telugu و Teluguترجمات التاميل على التوالي.
بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم ا يحدد NMT (SSNMT) بشكل مرئي جمل متوازية في بيانات وقابلة للمقارنة أصغر.لهذا التاريخ، لم يتم التحقيق في تقنيات توليد بيانات UMT في SSNMT.نظهر أنه بما في ذلك تقنيات UMT في SSNMT تتفوق بشكل كبير SSNMT (يصل إلى +4.3 بلو و AF2EN) بالإضافة إلى خطوط خطوط إحصائية (+50.8 بلو) و Sybrid UMT (+51.5 بلو) على أزواج لغة ذات صلة وغير ذات صلة وغير ذات صلة.
في هذه الورقة ونحن نستكشف تقنيات مختلفة للتغلب على تحديات الموارد المنخفضة في الترجمة الآلية العصبية (NMT) وتركز على وجه التحديد على حالة اللغة الإنجليزية الماراثية NMT. تتطلب أنظمة NMT كمية كبيرة من كورسا الموازية للحصول على ترجمات ذات نوعية جيدة. ن حاول تخفيف مشكلة الموارد المنخفضة عن طريق زيادة Corpora الموازية أو باستخدام تعلم النقل. تستخدم تقنيات مثل حقن الجدول العبارة (PTI) والترجمة الخلفي وخلط لغة اللغة لتعزيز البيانات الموازية؛ في حين أن المظلات المحورية والمحسبات متعددة اللغات تستخدم للاستفادة من تعلم التحويل. بالنسبة للمحور المحوري، تأتي الهندية في اللغة المساعدة للترجمة الإنجليزية المهاراتية. بالمقارنة مع نموذج محول الأساس، يلاحظ اتجاه تحسن كبير في درجة بلو عبر تقنيات مختلفة. لقد قمنا بإجراء تقييم واسع النطاق والتولي والنوعي لأنظمنا. نظرا لأن الاتجاه في الترجمة الآلية (MT) اليوم هو ما بعد التحرير وقياس الحد من الجهود البشرية (لها)، ونعطينا ملاحظاتنا الأولية لمعدل تحرير الترجمة (TER) مقابل دراسة درجة بلو وحيث يعتبر TER كتدبير لها.
تعلق نظام ترجمة لغة الإشارة المتتالية في خرائط أول خريطة توقيع مقاطع فيديو لمعالجة التوضيحية ثم تترجم لمعان اللغات في لغات منطوقة.يركز هذا العمل على مكون الترجمة اللامع في المرحلة الثانية، وهو أمر صعب بسبب ندرة البيانات الموازية المتاحة للجمهور.نحن ن قترب الترجمة اللمعان كمهامة ترجمة آلية منخفضة الموارد والتحقيق في طريقتين شعبيتين لتحسين جودة الترجمة: فرط HyperParameter و Backtranslation.نناقش الإمكانات والمخاطر من هذه الأساليب بناء على تجارب في مجموعة بيانات RWTH-Phoenix-Weather 2014T.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا