تحديد أهمية تداخل المحتوى للحصول على تعيينات تضمين أفضل عبر اللغات


الملخص بالعربية

في هذا العمل، نقوم بتحليل أداء وخصائص نماذج تضمين الكلمة المتبقية التي تم إنشاؤها بواسطة أساليب المحاذاة المستندة إلى تعيين الخرائط.نحن نستخدم العديد من التدابير الخاصة بالجور وضمان التشابه للتنبؤ بعشرات BLI من تعيينات تضمين التضمين عبر اللغات على ثلاثة أنواع من كوربورا وثلاث أساليب تضمين و 55 زوجا للغة.تؤكد نتائجنا التجريبية على أنها بدلا من مجرد حجم، فإن مقدار المحتوى المشترك في Training Corpora ضروري.تتجلى هذه الظاهرة في ذلك) على الرغم من أحجام كوربوس الأصغر، باستخدام الأجزاء المقارنة فقط من ويكيبيديا لتدريب مساحات تضمين الأحادية المهتملة غالبا ما تكون أكثر فعالية من الاعتماد على جميع محتويات ويكيبيديا، 2) أصغر، في المقابلتعمل Wikipedia الأقل متنوعة في ويكيبيديا دائما أفضل بكثير كدولة تدريبية لتعيينات ثنائية اللغة من ويكيبيديا الإنجليزية المستخدمة في كل مكان.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث