ترغب بنشر مسار تعليمي؟ اضغط هنا

الحب جارته: الجمع بين اثنين من لغات الموارد المنخفضة المجاورة للترجمة

Love Thy Neighbor: Combining Two Neighboring Low-Resource Languages for Translation

268   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتخذ لغات الموارد المنخفضة في بعض الأحيان خصائص مورفولوجية ومزودة مماثلة بسبب قريبها الجغرافي والتاريخ المشترك.وجدت اثنين من لغات المجاورة المنخفضة المجاورة في بيرو، كوكوا وأشانينكا، للوهلة الأولى، لغتين متشابهة مورفولوجي.من أجل ترجمة اللغتين، اتخذت النهج المختلفة.بالنسبة إلى Quechua، تم استخدام تعلم تحويل الآلة العصبية مع ترميز بايت زوج.بالنسبة لشركة Ashaninka، فإن لغة الاثنين مع عدد أقل من الموارد، يتم استخدام محول الحالة المحدودة لتحويل نصوص Ashaninka ولهجتها لاستخدام الترجمة الآلية.نحن نقيم وقارن بين نهجين من خلال محاولة استخدام Ashaninka Corpora المكون حديثا للترجمة الآلية العصبية.تظهر تجاربنا أن الجمع بين اللغتين المجاورةين، بينما كانت متشابهة في التشكل، ومشاركة الكلمات، والموقع الجغرافي، ويحسن Ashaninka-- الترجمة الإسبانية ولكنها تحطمت كوكوا - الترجمات الإسبانية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذا العمل، نحقق في أساليب المهمة الصعبة المتمثلة في الترجمة بين أزواج لغة الموارد المنخفضة التي تظهر بعض مستوى التشابه.على وجه الخصوص، نعتبر فائدة نقل التعلم للترجمة بين العديد من لغات الموارد المنخفضة الأوروبية من الهند من الأسر الجرمانية والروما نسية.على وجه الخصوص، نبني اثنين من الطبقات الرئيسية من النظم القائمة على النقل لدراسة كيفية استخدام ترابط الأداء الترجمة.النظام الأساسي يضم النموذج الذي تم تدريبه مسبقا على زوج لغة ذات صلة ونظام قابل للتناقض بشكل جيد-قم بإلغاء التدريب مسبقا على زوج لغة غير ذات صلة.تبين تجاربنا أنه على الرغم من أن المرتبطة ليست ضرورية لنقل التعلم للعمل، إلا أنها تنفذ أداء نموذجي.
نترجم نص مغلق معروف مقدما ومتوفر في العديد من اللغات في لغة موارد جديدة منخفضة للغاية. تعتمد معظم جهود الترجمة البشرية اتباع نهج بوابة لترجمة الصفحات / الفصول على التوالي، والتي قد لا تناسب الترجمة الآلية. قارنا النهج القائم على الجزء الذي يحسن التما سك النص محليا مع نهج أخذ العينات العشوائية التي تزيد من تغطية النص على مستوى العالم. تظهر نتائجنا أن نهج أخذ العينات العشوائية يؤدي بشكل أفضل. عند التدريب على كوربوس البذور من ~1000 خطوط من الكتاب المقدس والاختبار على بقية الكتاب المقدس (~30،000 خطوط)، يعطي أخذ العينات العشوائية مكسب أداء من +11.0 بلو باستخدام اللغة الإنجليزية كمورد منخفضة مقلدة، و +4.9 بلو باستخدام Pokomchi الشرقية، لغة المايا. علاوة على ذلك، نقارن ثلاث طرق لتحديث نماذج الترجمة الآلية مع زيادة كمية البيانات التي تم تحريرها البشرية من خلال التكرارات. نجد أن إضافة بيانات تم تحريرها حديثا إلى التدريب بعد تحديث المفردات دون الإشراف الذاتي يؤدي الأفضل. نقترح خوارزمية للإنسان والآلة للعمل معا بسلاسة لترجمة نص مغلق إلى لغة موارد منخفضة للغاية.
غالبا ما يقتصر الترجمة الآلية العصبية لغات الموارد المنخفضة (LRL) على عدم وجود بيانات تدريبية متاحة، مما يجعل من الضروري استكشاف تقنيات إضافية لتحسين جودة الترجمة.نقترح استخدام خوارزمية تجزئة الكلمات الفرعية للترميز (PRPE) بادئة الجذر (PRPE) لتحسين ج ودة الترجمة ل LRLS، باستخدام لغتين تغليف كدراسات حالة: Quechua والإندونيسية.أثناء تجاربنا، نعيد إدخال كوربوس موازية لترجمة Quechua-Spanish التي كانت غير متوفرة سابقا ل NMT.تظهر تجاربنا أهمية تجزئة الكلمات الفرعية المناسبة، والتي يمكن أن تذهب بقدر تحسين جودة الترجمة عبر الأنظمة المدربة على كميات أكبر بكثير من البيانات.نظهر هذا من خلال تحقيق نتائج حديثة لكلتا اللغتين، والحصول على درجات بلو أعلى من النماذج الكبيرة المدربة مسبقا مع كميات أقل بكثير من البيانات.
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح ن نستخدم أساسا الترجمة المرجانية، والطرق القائمة على المحور، ونماذج متعددة اللغات، ونقل النموذج المدربين مسبقا، ونقل المعرفة داخل المجال لتحسين جودة الترجمة.في مجموعة الاختبار، يحقق نظامنا الأفضل المقدم بمتوسط 43.45 درجات بلو حساسة لحالة الأحرف عبر جميع أزواج الموارد المنخفضة.تتوفر بياناتنا ورمز النماذج المدربة مسبقا مسبقا في هذا العمل في أمثلة تقييم Tentrans.
بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم ا يحدد NMT (SSNMT) بشكل مرئي جمل متوازية في بيانات وقابلة للمقارنة أصغر.لهذا التاريخ، لم يتم التحقيق في تقنيات توليد بيانات UMT في SSNMT.نظهر أنه بما في ذلك تقنيات UMT في SSNMT تتفوق بشكل كبير SSNMT (يصل إلى +4.3 بلو و AF2EN) بالإضافة إلى خطوط خطوط إحصائية (+50.8 بلو) و Sybrid UMT (+51.5 بلو) على أزواج لغة ذات صلة وغير ذات صلة وغير ذات صلة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا