ترغب بنشر مسار تعليمي؟ اضغط هنا

إثراء المحول مع العوامل اللغوية للترجمة ذات الجهاز المنخفض

Enriching the Transformer with Linguistic Factors for Low-Resource Machine Translation

221   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

من المعروف أن ميزات كلمة مثل المعلومات اللغوية التي تشير إلى رموز المصدر التي تشير إلى رموز المصدر، لتحسين نتائج أنظمة الترجمة الآلية العصبية في بعض الإعدادات، وعادة ما تكون في البنى المتكررة. تقترح هذه الدراسة تعزيز هندسة الترجمة الآلية الحالية للدولة القصيرة، والمحول، بحيث يسمح بإدخال المعرفة الخارجية. على وجه الخصوص، يستخدم التعديل المقترح لدينا، المحولات العامل، العوامل اللغوية التي تدرس معرفة إضافية في نظام الترجمة الآلي. بصرف النظر عن استخدام أنواع مختلفة من الميزات، ندرس تأثير التكوينات المعمارية المختلفة. على وجه التحديد، نقوم بتحليل أداء الجمع بين الكلمات والميزات على مستوى التضمين أو على مستوى التشفير، ونحن نقوم بتجربة استراتيجيتين مزيج مختلفين. مع تكوين أفضل تم العثور عليه، نعرض تحسينات من 0.8 بلو عبر محول الأساس في مهمة IWSLT الألمانية إلى الإنجليزية. علاوة على ذلك، نقوم بتجربة معيار فلوريس الإنجليزي إلى النيبالي الأكثر تحديا، والذي يشمل كل من اللغات المنخفضة الموارد والبعيدة للغاية، والحصول على تحسين 1.2 بلو



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لقد تم الاعتراف على نطاق واسع بأن معلومات بناء الجملة يمكن أن تساعد في أنظمة الترجمة الآلية العصبية في نهاية إلى نهادة لتحقيق ترجمة أفضل. من أجل دمج معلومات التبعية في NMT المحول، النهج الحالية إما استغلال العلاقات المعتمدة في الرأس المحلية، تجاهل جي رانها غير المحليين الذين يحملون سياق مهم؛ أو تقريبي كلمتين "العلاقة الأساسية" من خلال المسافة النسبية الخاصة بها على شجرة التبعية، والتضحية بالضيق. لمعالجة هذه المشكلات، نقترح الترميز الموضعي العالمي لشجرة التبعية، وهو مخطط جديد يسهل نمذجة العلاقة النحوية بين أي كلمتين مع الحفاظ على الدقة ودون قيود جارتها الفورية. نتائج التجربة على NC11 الألمانية → الإنجليزية والإنجليزية → الألمانية و WMT الإنجليزية → تظهر مجموعات البيانات الألمانية أن نهجنا أكثر فعالية من الاستراتيجيتين المذكورتين أعلاه. بالإضافة إلى ذلك، نظرا لأن تجاربنا تظهر كميا أن مقارنة بطبقات أعلى، فإن الطبقات المنخفضة للنموذج هي أماكن أكثر أهمية لإدماج معلومات بناء الجملة من حيث تفضيل كل طبقة للنمط النحوي والأداء النهائي.
في الورقة، نقدم عملية إضافة معلومات مورفولوجية إلى Wordnet البولندية (Plwlnet).نحن تصف أسباب هذا الاتصال والحماسات وراء ذلك.نستفصل أيضا الانتباه إلى خصوصية المورفولوجيا البولندية.نظرا لأن المهام التي تعتبرها المعلومات المورفولوجية مهمة وكيف يمكن تطوي ر الطرق من خلال توسيعها لتشمل المعلومات المورفولوجية مجتمعة بناء على WordNet.
غالبا ما يقتصر الترجمة الآلية العصبية لغات الموارد المنخفضة (LRL) على عدم وجود بيانات تدريبية متاحة، مما يجعل من الضروري استكشاف تقنيات إضافية لتحسين جودة الترجمة.نقترح استخدام خوارزمية تجزئة الكلمات الفرعية للترميز (PRPE) بادئة الجذر (PRPE) لتحسين ج ودة الترجمة ل LRLS، باستخدام لغتين تغليف كدراسات حالة: Quechua والإندونيسية.أثناء تجاربنا، نعيد إدخال كوربوس موازية لترجمة Quechua-Spanish التي كانت غير متوفرة سابقا ل NMT.تظهر تجاربنا أهمية تجزئة الكلمات الفرعية المناسبة، والتي يمكن أن تذهب بقدر تحسين جودة الترجمة عبر الأنظمة المدربة على كميات أكبر بكثير من البيانات.نظهر هذا من خلال تحقيق نتائج حديثة لكلتا اللغتين، والحصول على درجات بلو أعلى من النماذج الكبيرة المدربة مسبقا مع كميات أقل بكثير من البيانات.
التصنيفات هي تمثيل رمزي للعلاقات الهرمية بين المصطلحات أو الكيانات. في حين أن التصنيفات مفيدة في تطبيقات واسعة، فإن تحديثها أو الحفاظ عليها يدويا كثيفة العمالة وصعبة الحجم في الممارسة العملية. تفشل الأساليب الإشرافية التقليدية لهذه المهمة التخصيب هذه في العثور على والدي الأمثل للمصطلحات الجديدة في إعدادات الموارد المنخفضة حيث تتوفر تصنيفات صغيرة فقط بسبب التجاوز عن العلاقات الهرمية في التصنيفات. لمعالجة مشكلة تخصيب التصنيف المنخفض للموارد، نقترح Musubu، وهو إطار فعال لإثراء التصنيف في إعدادات الموارد المنخفضة مع نماذج اللغة المحددة مسبقا (LMS) كقواعد المعرفة للتعويض عن نقص المعلومات. يستفيد Musubu مصنف قائم على LM لتحديد ما إذا كان أزواج المصطلح المدبأ أو عدم وجود علاقات هرمية. يستخدم Musubu أيضا أنماطا هارا لتوليد استفسارات للاستفادة من المعرفة الضمنية من LM بكفاءة من أجل التنبؤ الأكثر دقة. إننا نوضح تجريبيا فعالية طريقتنا في تجارب واسعة النطاق بشأن التصنيفات من كل من مهمة Semeval ومجموعات بيانات التجزئة العالمية الحقيقية.
يحدد اختيار استراتيجية مشاركة المعلمات في نماذج الترجمة الآلية متعددة اللغات مدى استخدام مساحة المعلمة الأمثلة، وبالتالي، تؤثر مباشرة على جودة الترجمة النهائية.وقد اقترح مؤخرا مختارة من الأشجار اللغوية التي تظهر درجة الرعاية بين اللغات المختلفة، كما تم اقتراح النهج العام الجديد لمشاركة المعلمة في الترجمة متعددة اللغات في الترجمة متعددة اللغات.تتمثل الفكرة الرئيسية في استخدام هذه التسلسلات الهرمية لغوية الخبراء كأساس للهندسة المعمارية متعددة اللغات: كلما زادت اللغتين، كلما زاد عدد المعلمات التي يشاركونها.في هذا العمل، نختبر هذه الفكرة باستخدام بنية المحولات وإظهار أنه على الرغم من النجاح في العمل السابق هناك مشاكل متأصلة لتدريب هذه النماذج الهرمية.نوضح أنه في حالة اتباع استراتيجية التدريب المختارة بعناية، يمكن للهندسة الهيكل الهرمية تفوق النماذج ثنائية اللغة ونماذج متعددة اللغات مع مشاركة المعلمات الكاملة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا