ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذه الورقة، نقوم بتحليل المدى الذي يتطلع إليه المعنى السياقي، أي شعور بمعنى تم حسابه على أساس مدمج الكلمات السياقية، قابلة للتحويل عبر اللغات. في هذه الغاية، جمعنا معيارا موحدا عبر اللغات ل Disambiguation Sense.بعد ذلك نقترح استراتيجيتين بسيطة لنق ل المعرفة الخاصة بالمعنى بالمعنى بين اللغات واختبرها على النتائج المعدية-portform unolingual تمثيلات mernessnfrom البيانات الخاصة باللغة الحالية.
وقد تبين أن نماذج اللغة متعددة اللغات المحددة تعمل بشكل جيد في العديد من اللغات لمجموعة متنوعة من مهام NLP المصب. ومع ذلك، من المعروف أن هذه النماذج تتطلب الكثير من البيانات التدريبية. وبالتالي يترك هذا نسبة كبيرة من لغات العالم لأنها نقص الموارد. عل اوة على ذلك، فإن الدافع الرئيسي وراء هذه النماذج هو أن لغات الموارد المنخفضة تستفيد من التدريب المشترك بلغات الموارد العليا. في هذا العمل، نتحدى هذا الافتراض وتقديم المحاولة الأولى لتدريب نموذج لغة متعددة اللغات على لغات الموارد المنخفضة فقط. نظهر أنه من الممكن تدريب نماذج لغة متعددة اللغات التنافسية على أقل من 1 غيغابايت من النص. يغطي نموذجنا، يدعى Afriberta، 11 لغة إفريقية، بما في ذلك نموذج اللغة الأول لمدة 4 من هذه اللغات. التقييمات حول التعرف على الكيان المسمى وتصنيف النص يشير إلى 10 لغات تظهر أن النموذج لدينا تفوقت على mbert و xlm-rin عدة لغات وتنافسية للغاية بشكل عام. تشير النتائج إلى أن نهج بياناتنا الصغير بناء على لغات مماثلة قد يعمل في بعض الأحيان أفضل من التدريب المشترك على مجموعات البيانات الكبيرة مع لغات موارد عالية. يتم إصدار الرمز والبيانات والنماذج في https://github.com/keleog/afriberta.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا