غالبا ما يتطلب تدريب نماذج NLP كميات كبيرة من بيانات التدريب المسمى، مما يجعل من الصعب توسيع النماذج الحالية لغات جديدة.في حين تعتمد Transfer-Transfer عبر اللغات الصفرية على تضييق كلمة متعددة اللغات لتطبيق نموذج تدرب على لغة واحدة لآخر، فإن Yarowski و Ngai (2001) يقترح طريقة الإسقاط التوضيحي لتوليد بيانات التدريب دون شرح يدوي.تم استخدام هذه الطريقة بنجاح مهام التعرف على الكيان المسمى وكتابة الكيان الخشن الخشبي، لكننا نظهر أنه من غير متوقع من قبل النقل الصفرية عبر اللغات عند تطبيقها على مهمة مماثلة لكتابة الكيان المحبوس.في دراستنا لطبقتها الجميلة للكتابة من نوع الغش في علم الأطباق الألمانية بالنسبة للألمانية، نظهر أن الإسقاط التوضيحي يضخم ميل النموذج الإنجليزي إلى تسميات المستوى 2 المستويات والضرب عن طريق النقل الصفرية عبر اللغات على ثلاثة مجموعات اختبار رواية.
The training of NLP models often requires large amounts of labelled training data, which makes it difficult to expand existing models to new languages. While zero-shot cross-lingual transfer relies on multilingual word embeddings to apply a model trained on one language to another, Yarowski and Ngai (2001) propose the method of annotation projection to generate training data without manual annotation. This method was successfully used for the tasks of named entity recognition and coarse-grained entity typing, but we show that it is outperformed by zero-shot cross-lingual transfer when applied to the similar task of fine-grained entity typing. In our study of fine-grained entity typing with the FIGER type ontology for German, we show that annotation projection amplifies the English model's tendency to underpredict level 2 labels and is beaten by zero-shot cross-lingual transfer on three novel test sets.
المراجع المستخدمة
https://aclanthology.org/
تحليل المدونات الصغيرة حيث ننشر ما نقوم بتمكيننا من أداء تطبيقات مختلفة مثل تحليل الاتجاه الاجتماعي وتوصية الكيان. لتتبع الاتجاهات الناشئة في مجموعة متنوعة من المجالات، نريد تصنيف المعلومات عن الكيانات الناشئة (على سبيل المثال، الصورة الرمزية 2) في م
تستند نهج كتابة الكيانات التقليدية إلى نماذج تصنيف مستقلة، مما يجعلها من الصعب التعرف على أنواع الكيان المعتمدة والذات طويل الذيل والحبوب. في هذه الورقة، نجادل بأن التبعيات الخارجية والمترنوية المتطودة ضمنيا بين الملصقات يمكن أن توفر معرفة حاسمة لمعا
يعمل العمل الحالي على كتابة كيان غرامة (FET) عادة النماذج التلقائية على مجموعات البيانات التي تم الحصول عليها باستخدام قواعد المعرفة (KB) كشراف بعيد.ومع ذلك، فإن الاعتماد على KB يعني أنه يمكن إعاقة هذا الإعداد التدريبي من خلال عدم وجود أو عدم انتظام
حققت نماذج متعددة اللغات المدربة مسبقا أداء ملحوظا على تعلم التحويل عبر اللغات.تم تدريب بعض النماذج متعددة اللغات مثل Mbert، مدربة مسبقا على Corpora غير المسبق، وبالتالي لا يمكن تضمين تضمينات لغات مختلفة في النماذج بشكل جيد للغاية.في هذه الورقة، نهدف
في تحليل التمثيل المعني المتبادل التجريدي (AMR)، يقوم الباحثون بتطوير النماذج التي تمارس طرزها من لغات مختلفة على الأمراض الأمريكية لالتقاط هياكلها الدلالية الأساسية: بالنظر إلى عقوبة بأي لغة، نهدف إلى التقاط المحتوى الدلالي الأساسي من خلال المفاهيم