ترغب بنشر مسار تعليمي؟ اضغط هنا

تجزئة موجهة بشكل مورجي للترجمة لغات الموارد ذات الأغلب

Morphologically-Guided Segmentation For Translation of Agglutinative Low-Resource Languages

505   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

غالبا ما يقتصر الترجمة الآلية العصبية لغات الموارد المنخفضة (LRL) على عدم وجود بيانات تدريبية متاحة، مما يجعل من الضروري استكشاف تقنيات إضافية لتحسين جودة الترجمة.نقترح استخدام خوارزمية تجزئة الكلمات الفرعية للترميز (PRPE) بادئة الجذر (PRPE) لتحسين جودة الترجمة ل LRLS، باستخدام لغتين تغليف كدراسات حالة: Quechua والإندونيسية.أثناء تجاربنا، نعيد إدخال كوربوس موازية لترجمة Quechua-Spanish التي كانت غير متوفرة سابقا ل NMT.تظهر تجاربنا أهمية تجزئة الكلمات الفرعية المناسبة، والتي يمكن أن تذهب بقدر تحسين جودة الترجمة عبر الأنظمة المدربة على كميات أكبر بكثير من البيانات.نظهر هذا من خلال تحقيق نتائج حديثة لكلتا اللغتين، والحصول على درجات بلو أعلى من النماذج الكبيرة المدربة مسبقا مع كميات أقل بكثير من البيانات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تتخذ لغات الموارد المنخفضة في بعض الأحيان خصائص مورفولوجية ومزودة مماثلة بسبب قريبها الجغرافي والتاريخ المشترك.وجدت اثنين من لغات المجاورة المنخفضة المجاورة في بيرو، كوكوا وأشانينكا، للوهلة الأولى، لغتين متشابهة مورفولوجي.من أجل ترجمة اللغتين، اتخذت النهج المختلفة.بالنسبة إلى Quechua، تم استخدام تعلم تحويل الآلة العصبية مع ترميز بايت زوج.بالنسبة لشركة Ashaninka، فإن لغة الاثنين مع عدد أقل من الموارد، يتم استخدام محول الحالة المحدودة لتحويل نصوص Ashaninka ولهجتها لاستخدام الترجمة الآلية.نحن نقيم وقارن بين نهجين من خلال محاولة استخدام Ashaninka Corpora المكون حديثا للترجمة الآلية العصبية.تظهر تجاربنا أن الجمع بين اللغتين المجاورةين، بينما كانت متشابهة في التشكل، ومشاركة الكلمات، والموقع الجغرافي، ويحسن Ashaninka-- الترجمة الإسبانية ولكنها تحطمت كوكوا - الترجمات الإسبانية.
نترجم نص مغلق معروف مقدما ومتوفر في العديد من اللغات في لغة موارد جديدة منخفضة للغاية. تعتمد معظم جهود الترجمة البشرية اتباع نهج بوابة لترجمة الصفحات / الفصول على التوالي، والتي قد لا تناسب الترجمة الآلية. قارنا النهج القائم على الجزء الذي يحسن التما سك النص محليا مع نهج أخذ العينات العشوائية التي تزيد من تغطية النص على مستوى العالم. تظهر نتائجنا أن نهج أخذ العينات العشوائية يؤدي بشكل أفضل. عند التدريب على كوربوس البذور من ~1000 خطوط من الكتاب المقدس والاختبار على بقية الكتاب المقدس (~30،000 خطوط)، يعطي أخذ العينات العشوائية مكسب أداء من +11.0 بلو باستخدام اللغة الإنجليزية كمورد منخفضة مقلدة، و +4.9 بلو باستخدام Pokomchi الشرقية، لغة المايا. علاوة على ذلك، نقارن ثلاث طرق لتحديث نماذج الترجمة الآلية مع زيادة كمية البيانات التي تم تحريرها البشرية من خلال التكرارات. نجد أن إضافة بيانات تم تحريرها حديثا إلى التدريب بعد تحديث المفردات دون الإشراف الذاتي يؤدي الأفضل. نقترح خوارزمية للإنسان والآلة للعمل معا بسلاسة لترجمة نص مغلق إلى لغة موارد منخفضة للغاية.
في هذا العمل، نحقق في أساليب المهمة الصعبة المتمثلة في الترجمة بين أزواج لغة الموارد المنخفضة التي تظهر بعض مستوى التشابه.على وجه الخصوص، نعتبر فائدة نقل التعلم للترجمة بين العديد من لغات الموارد المنخفضة الأوروبية من الهند من الأسر الجرمانية والروما نسية.على وجه الخصوص، نبني اثنين من الطبقات الرئيسية من النظم القائمة على النقل لدراسة كيفية استخدام ترابط الأداء الترجمة.النظام الأساسي يضم النموذج الذي تم تدريبه مسبقا على زوج لغة ذات صلة ونظام قابل للتناقض بشكل جيد-قم بإلغاء التدريب مسبقا على زوج لغة غير ذات صلة.تبين تجاربنا أنه على الرغم من أن المرتبطة ليست ضرورية لنقل التعلم للعمل، إلا أنها تنفذ أداء نموذجي.
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم فردات الدوافع اللغوية (LMVR) مقابل الجملة الأكثر استخداما (SP) لمهمة الترجمة من اللغة الإنجليزية إلى أربعة لغات Dravidian مختلفة.بالإضافة إلى ذلك، نحقق في حجم المفردات الفرعية المثلى لكل لغة.نجد أن SP هو الخيار الأكثر شمولا للتجزئة، وأن أحجام القاموس الأكبر تؤدي إلى جودة الترجمة الأعلى.
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح ن نستخدم أساسا الترجمة المرجانية، والطرق القائمة على المحور، ونماذج متعددة اللغات، ونقل النموذج المدربين مسبقا، ونقل المعرفة داخل المجال لتحسين جودة الترجمة.في مجموعة الاختبار، يحقق نظامنا الأفضل المقدم بمتوسط 43.45 درجات بلو حساسة لحالة الأحرف عبر جميع أزواج الموارد المنخفضة.تتوفر بياناتنا ورمز النماذج المدربة مسبقا مسبقا في هذا العمل في أمثلة تقييم Tentrans.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا