كيانات ويكيبيديا كما rendezvous عبر اللغات: تأريض نماذج لغات متعددة اللغات من خلال التنبؤ برقائق ويكيبيديا


الملخص بالعربية

أصبحت نماذج لغة ملثم بسرعة قياسي فعلي عند معالجة النص. في الآونة الأخيرة، اقترح العديد من الأساليب زيادة إثراء تمثيلات Word مع مصادر المعرفة الخارجية مثل الرسوم البيانية المعرفة. ومع ذلك، يتم وضع هذه النماذج وتقييمها في إعداد أحادي فقط. في هذا العمل، نقترح مهمة تنبؤات كيان مستقلة في اللغة كإجراء تدريب متوسط ​​لتمثيلات الكلمات البرية على دلالات الكيان وجسم الفجوة عبر لغات مختلفة عن طريق المفردات المشتركة للكيانات. نظهر أن نهجنا يضجع بفعالية إلى معرفة جديدة من المعرفة المعجمية في النماذج العصبية، مما يحسن أدائها في مهام دلالية مختلفة في إعداد Croadlingual Zero-Shot. كميزة إضافية، لا يتطلب التدريب الوسيط لدينا أي مدخلات تكميلية، مما يسمح بتطبيق نماذجنا على مجموعات بيانات جديدة على الفور. في تجاربنا، نستخدم مقالات ويكيبيديا تصل إلى 100 لغة وتراقب بالفعل مكاسب متسقة مقارنة مع خطوط الأساس القوية عند التنبؤ بالكيانات باستخدام فقط Wikipedia الإنجليزية. يؤدي إضافة لغات إضافية أخرى إلى تحسينات في معظم المهام حتى نقطة معينة، ولكن عموما وجدنا أنها غير تافهة على تحسين التحسينات في عملية تحويل النموذج عن طريق التدريب على كميات متزايدة من أي وقت مضى لغات ويكيبيديا.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث