ترغب بنشر مسار تعليمي؟ اضغط هنا

أثبتت تضيير Word عبر اللغات (CLWES) لا غنى عنها لمختلف مهام معالجة اللغة الطبيعية، على سبيل المثال، تحريض معجم ثنائي اللغة (BLI). ومع ذلك، فإن عدم وجود البيانات غالبا ما يضعف جودة التمثيلات. اقترحت النهج المختلفة التي تتطلب إشراف ضعيف متصلي فقط، لكن الأساليب الحالية لا تزال تفشل في تعلم الأسطر الجيدة لغات فقط من كائن أحادي الأحادي الصغيرة فقط. لذلك ندعي أنه من الضروري استكشاف المزيد من البيانات الخاصة بتحسين CLWES في إعدادات الموارد المنخفضة. في هذه الورقة نقترح دمج بيانات لغات الموارد ذات الصلة ذات الصلة. على النقيض من الأساليب السابقة التي تنفذ بشكل مستقل تدريبا مسبقا من أجل تضمين اللغات، فإننا (1) قطار القطار للموارد المنخفضة ولغة ذات صلة بالاشتراك و (2) تعيينها إلى اللغة المستهدفة لبناء الفضاء النهائي متعدد اللغات. في تجاربنا نركز على Occitan، وهي لغة رومانسية منخفضة الموارد التي غالبا ما يتم إهمالها بسبب نقص الموارد. نستفيد من البيانات من الفرنسية والإسبانية والكانتالانية للتدريب والتقييم في مهمة Occitan-English BLI. من خلال دمج اللغات الداعمة طريقتنا التي تتفوقت على النهج السابقة بهامش كبير. علاوة على ذلك، يوضح تحليلنا أن درجة الرعاية بين لغة مدمجة ولغة الموارد المنخفضة مهمة للغاية.
تعرض نماذج اللغة متعددة اللغات أداء أفضل لبعض اللغات مقارنة بالآخرين (Singh et al.، 2019)، وعدد العديد من اللغات لا تستفيد من تقاسم متعدد اللغات على الإطلاق، من المفترض أن تكون نتيجة تجزئة متعددة اللغات (بيزال O وآخرون)2020).يستكشف هذا العمل فكرة تعل م نماذج اللغة متعددة اللغات بناء على تجميع شرائح أحادية الأونلينغ.نعرض تحسينات كبيرة على تجزئة وتدريب وتعدد اللغات القياسية عبر تسعة لغات بشأن مهمة الإجابة على سؤال، سواء في نظام نموذج صغير ونموذج حجم قاعدة بيرت.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا