ترغب بنشر مسار تعليمي؟ اضغط هنا

بيانات صغيرة؟لا مشكلة!استكشاف جدوى نماذج اللغة متعددة اللغات الاحترام لغات منخفضة الموارد

Small Data? No Problem! Exploring the Viability of Pretrained Multilingual Language Models for Low-resourced Languages

194   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

وقد تبين أن نماذج اللغة متعددة اللغات المحددة تعمل بشكل جيد في العديد من اللغات لمجموعة متنوعة من مهام NLP المصب. ومع ذلك، من المعروف أن هذه النماذج تتطلب الكثير من البيانات التدريبية. وبالتالي يترك هذا نسبة كبيرة من لغات العالم لأنها نقص الموارد. علاوة على ذلك، فإن الدافع الرئيسي وراء هذه النماذج هو أن لغات الموارد المنخفضة تستفيد من التدريب المشترك بلغات الموارد العليا. في هذا العمل، نتحدى هذا الافتراض وتقديم المحاولة الأولى لتدريب نموذج لغة متعددة اللغات على لغات الموارد المنخفضة فقط. نظهر أنه من الممكن تدريب نماذج لغة متعددة اللغات التنافسية على أقل من 1 غيغابايت من النص. يغطي نموذجنا، يدعى Afriberta، 11 لغة إفريقية، بما في ذلك نموذج اللغة الأول لمدة 4 من هذه اللغات. التقييمات حول التعرف على الكيان المسمى وتصنيف النص يشير إلى 10 لغات تظهر أن النموذج لدينا تفوقت على mbert و xlm-rin عدة لغات وتنافسية للغاية بشكل عام. تشير النتائج إلى أن نهج بياناتنا الصغير بناء على لغات مماثلة قد يعمل في بعض الأحيان أفضل من التدريب المشترك على مجموعات البيانات الكبيرة مع لغات موارد عالية. يتم إصدار الرمز والبيانات والنماذج في https://github.com/keleog/afriberta.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مهمة Charles University الفرعية للمصطلحات المهمة المشتركة للترجمة في WMT21.الهدف من هذه المهمة هو تصميم نظام يترجم مع شروط معينة بناء على قاعدة بيانات المصطلحات المقدمة، مع الحفاظ على جودة الترجمة الشاملة عالية.تنافسنا في زوج اللغة الإ نجليزية الفرنسية.يعتمد نهجنا على توفير الترجمات المرغوبة إلى جانب جملة الإدخال وتدريب النموذج لاستخدام هذه المصطلحات المقدمة.نحن Lemmatize المصطلحات على حد سواء أثناء التدريب والاستدلال، للسماح للنموذج لمعرفة كيفية إنتاج الأشكال السطحية الصحيحة للكلمات، عندما تختلف عن النماذج المتوفرة في قاعدة بيانات المصطلحات.
تقارير هذه الورقة أنظمة الترجمة الآلية المقدمة من فريق IIITT للغة الإنجليزية → أزواج اللغة المهاراتية والإنجليزية أزواج LORESMT 2021 المشاركة المشتركة.تركز المهمة على الحصول على ترجمات استثنائية لغات منخفضة بالموارد منخفضة إلى حد ما مثل الأيرلندية وا لماراثية.نحن نايت Tune Endertrans، نموذج NMT متعدد اللغات مسبقا للغة الإنجليزية → Marathi، باستخدام Corpus الموازي الخارجي كمدخل للتدريب الإضافي.لقد استخدمنا نموذج English Helsinki-NLP Opus Mt للزواج باللغة الأخير.تؤدي نهجنا إلى نتائج واعدة نسبيا على مقاييس بلو.تحت اسم الفريق IIITT، تصنيف أنظمتنا في المرتبة 1، 1، و 2 باللغة الإنجليزية → الماراثي، الأيرلندية → الإنجليزية، والإنجليزية → الأيرلندية على التوالي.يتم نشر رموز أنظمتنا 1.
توضح هذه الورقة تقديم TENTRANS إلى مهمة مشتركة من Translation Translation منخفضة اللغات WMT21 لأزواج اللغة الرومانسية.تركز هذه المهمة على تحسين جودة الترجمة من الكاتالونية إلى Occitan والرومانية والإيطالية، بمساعدة لغات الموارد ذات الصلة ذات الصلة.نح ن نستخدم أساسا الترجمة المرجانية، والطرق القائمة على المحور، ونماذج متعددة اللغات، ونقل النموذج المدربين مسبقا، ونقل المعرفة داخل المجال لتحسين جودة الترجمة.في مجموعة الاختبار، يحقق نظامنا الأفضل المقدم بمتوسط 43.45 درجات بلو حساسة لحالة الأحرف عبر جميع أزواج الموارد المنخفضة.تتوفر بياناتنا ورمز النماذج المدربة مسبقا مسبقا في هذا العمل في أمثلة تقييم Tentrans.
أصبحت نماذج لغة ملثم بسرعة قياسي فعلي عند معالجة النص. في الآونة الأخيرة، اقترح العديد من الأساليب زيادة إثراء تمثيلات Word مع مصادر المعرفة الخارجية مثل الرسوم البيانية المعرفة. ومع ذلك، يتم وضع هذه النماذج وتقييمها في إعداد أحادي فقط. في هذا العمل، نقترح مهمة تنبؤات كيان مستقلة في اللغة كإجراء تدريب متوسط ​​لتمثيلات الكلمات البرية على دلالات الكيان وجسم الفجوة عبر لغات مختلفة عن طريق المفردات المشتركة للكيانات. نظهر أن نهجنا يضجع بفعالية إلى معرفة جديدة من المعرفة المعجمية في النماذج العصبية، مما يحسن أدائها في مهام دلالية مختلفة في إعداد Croadlingual Zero-Shot. كميزة إضافية، لا يتطلب التدريب الوسيط لدينا أي مدخلات تكميلية، مما يسمح بتطبيق نماذجنا على مجموعات بيانات جديدة على الفور. في تجاربنا، نستخدم مقالات ويكيبيديا تصل إلى 100 لغة وتراقب بالفعل مكاسب متسقة مقارنة مع خطوط الأساس القوية عند التنبؤ بالكيانات باستخدام فقط Wikipedia الإنجليزية. يؤدي إضافة لغات إضافية أخرى إلى تحسينات في معظم المهام حتى نقطة معينة، ولكن عموما وجدنا أنها غير تافهة على تحسين التحسينات في عملية تحويل النموذج عن طريق التدريب على كميات متزايدة من أي وقت مضى لغات ويكيبيديا.
تصف هذه الورقة تقديمنا للمهمة المشتركة على MT غير المنشورة ومدونة منخفضة للغاية في WMT 2021. لقد قدمنا أنظمة لأزواجين لغتان: الألمانية ↔ Sorbian العلوي (DE ↔ HSB) والصوربي الألماني السفلي (DSB).ل De ↔ HSB، نحن نتأرجح بنظامنا باستخدام كتلة (تسلسل ملثم ين للتسلسل) الهدف ثم Finetune باستخدام الترجمة الترجمة الترجمة الترجمة التكرارية.يتم تنفيذ Finetunng النهائي باستخدام البيانات المتوازية المقدمة لأهداف الترجمة.ل de ↔ DSB، لا يتم توفير بيانات متوازية في المهمة، نستخدم نموذج DEFS HSB النهائي كهيئة نموذج DSB وتدريبه على الترجمة الترجمة الترجمة المتكررة، باستخدام نفس المفردات كما هو مستخدم في de ↔ HSBنموذج.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا