ترغب بنشر مسار تعليمي؟ اضغط هنا

تجزئة الكلمات المثلى الترجمة الآلية العصبية إلى لغات Dravidian

Optimal Word Segmentation for Neural Machine Translation into Dravidian Languages

519   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من المفردات الدوافع اللغوية (LMVR) مقابل الجملة الأكثر استخداما (SP) لمهمة الترجمة من اللغة الإنجليزية إلى أربعة لغات Dravidian مختلفة.بالإضافة إلى ذلك، نحقق في حجم المفردات الفرعية المثلى لكل لغة.نجد أن SP هو الخيار الأكثر شمولا للتجزئة، وأن أحجام القاموس الأكبر تؤدي إلى جودة الترجمة الأعلى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم ا يحدد NMT (SSNMT) بشكل مرئي جمل متوازية في بيانات وقابلة للمقارنة أصغر.لهذا التاريخ، لم يتم التحقيق في تقنيات توليد بيانات UMT في SSNMT.نظهر أنه بما في ذلك تقنيات UMT في SSNMT تتفوق بشكل كبير SSNMT (يصل إلى +4.3 بلو و AF2EN) بالإضافة إلى خطوط خطوط إحصائية (+50.8 بلو) و Sybrid UMT (+51.5 بلو) على أزواج لغة ذات صلة وغير ذات صلة وغير ذات صلة.
تحسنت جودة الترجمات التي تم إنشاؤها بواسطة أنظمة الترجمة الآلية (MT) بشكل كبير خلال السنوات، لكننا لا نزال بعيدا للحصول على ترجمات عالية الجودة التلقائية بالكامل.لتوليدهم والمترجمين يستفيدون من أدوات الترجمة المساعدة بمساعدة الكمبيوتر وبينها نجد أنظم ة الترجمة الآلية التفاعلية (IPMT).في هذه الورقة، نستخدم ملاحظات الحساب على أنها المعلومات الرئيسية والوحيدة اللازمة لإنشاء تنبؤات جديدة تصحح الترجمات السابقة.يقلل تطبيق ملاحظات الحساب بشكل كبير من عدد الكلمات التي يحتاجها المترجم إلى كتابة جلسة IPMT.في الختام واستخدام هذه التقنية يوفر وقتا مفيدا وجهده للمترجمين وتحسين أدائها مع التقدم المستقبلي في MT وهكذا نوصي بتطبيقها في أنظمة IPMT الفعلية.
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال مهمة، استغلنا بيانات أحادية الأونلينغ عن طريق تضيير Word مسبقا في Transformer Model Necural Translation للتعامل مع قيود Corpus الموازية.لقد حقق نموذجنا تقييم ثنائي اللغة التقييم (بلو) 0.05، درجة التقييم البديهات بديهية سهلة اللغة (RIBES) في المرتبة (RIBES) من 24.80 ونتيجة معدل تحرير الترجمة من 97.24 لكل من Tamil-to-Telugu و Teluguترجمات التاميل على التوالي.
تعمل العديد من نماذج NLP على تسلسل الرموز الرموز الفرعية التي تنتجها قواعد التزخم المصنوعة يدويا وخوارزميات التعريفي للكلمة الفرعية.بديل عالمي بسيط هو تمثيل كل نص محوسب كسلسلة من البايتات عبر UTF-8، وضبط الحاجة إلى طبقة تضمين نظرا لأن هناك عدد أقل من أنواع الرمز المميز (256) من الأبعاد.من المستغرب، استبدال طبقة التضمين في كل مكان بتمثيلات ساخنة لكل بايت لا تؤذي الأداء؛تظهر التجارب في الترجمة الآلية بايت إلى بايت من الإنجليزية إلى 10 لغات مختلفة تحسنا ثابتا في بلو، ومستوى الطابع المتنافس وحتى نماذج مستوى الكلمات الفرعية القياسية.يكشف التحقيق الأعمق أن مزيج من نماذج تضمينه مع ترميز مفاتيح المدخلات بمبالغ الرمز إلى التسرب الرمزي، والذي يفيد نماذج بايت إلى بايت بشكل خاص.
تصف هذه الورقة شركة Tone Communication Global Co.، Ltd. لتقديم مهمة ترجمة الأخبار المشتركة WMT21.نشارك في ست اتجاهات: إنجليزي منادر إلى / من الهوسا، الهندية من / إلى / من البنغالية وزولو إلى / من Xhosa.أنظمتنا المقدمة غير مقيدة والتركيز على الترجمة م تعددة اللغات أوديل، الترجمة إلى الأمام.نحن نطبق أيضا قواعد ونموذج اللغة لتصفية أحكام أحادية الاتجاه والجمل الاصطناعية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا