نحن ندرس مشكلة استخراج وسيطة الأحداث عبر اللغات (CEAE). تهدف المهمة إلى التنبؤ بأدوار حجة من يذكر الأحداث في النص، والتي تختلف لغتها عن اللغة التي تم تدريبها على نموذج تنبؤي. أظهر العمل السابق على CEAE الفوائد المتبادلة لأشجار الاعتماد الشامل في التقاط الهياكل النحوية المشتركة للجمل عبر اللغات. على وجه الخصوص، يستغل هذا العمل وجود الاتصالات النحوية بين الكلمات في أشجار التبعية كمعرفة مرساة لنقل التمثيل تعلم عبر اللغات لنماذج CEAE (I.E.، عبر الرسوم البيانية الشبكات العصبية العلاجية - GCNS). في هذه الورقة، نقدم مصادر رواية معلومات مستقلة من اللغة للحصول على نماذج CEAE بناء على التشابه الدلالي وعلاقات التبعية الشاملة في Word Pairs بلغات مختلفة. نقترح استخدام مصادر المعلومات لإنتاج هياكل جملة مشتركة لسد الفجوة بين اللغات وتحسين الأداء المتبادل لنماذج CEAE. يتم إجراء تجارب واسعة مع اللغة العربية والصينية والإنجليزية لإظهار فعالية الطريقة المقترحة للحصول على CEAE.
We study the problem of Cross-lingual Event Argument Extraction (CEAE). The task aims to predict argument roles of entity mentions for events in text, whose language is different from the language that a predictive model has been trained on. Previous work on CEAE has shown the cross-lingual benefits of universal dependency trees in capturing shared syntactic structures of sentences across languages. In particular, this work exploits the existence of the syntactic connections between the words in the dependency trees as the anchor knowledge to transfer the representation learning across languages for CEAE models (i.e., via graph convolutional neural networks -- GCNs). In this paper, we introduce two novel sources of language-independent information for CEAE models based on the semantic similarity and the universal dependency relations of the word pairs in different languages. We propose to use the two sources of information to produce shared sentence structures to bridge the gap between languages and improve the cross-lingual performance of the CEAE models. Extensive experiments are conducted with Arabic, Chinese, and English to demonstrate the effectiveness of the proposed method for CEAE.
المراجع المستخدمة
https://aclanthology.org/
استخراج الأحداث على مستوى المستند أمر بالغ الأهمية لمختلف مهام معالجة اللغة الطبيعية لتوفير معلومات منظمة.النهج الحالية عن طريق النمذجة المتسلسلة إهمال الهياكل المنطقية المعقدة للنصوص الطويلة.في هذه الورقة، نستفيد بين تفاعلات الكيان وتفاعلات الجملة خ
حققت نماذج اللغة المرجعة متعددة اللغات متعددة اللغات مؤخرا أداءا ملحوظا عن الصفر، حيث يتم تقسيم النموذج فقط في لغة مصدر واحدة وتقييمها مباشرة على اللغات المستهدفة.في هذا العمل، نقترح إطارا للتعليم الذاتي الذي يستخدم البيانات غير المستهدفة من اللغات ا
في هذه الورقة، نقترحنا بمحاذاة تمثيلات الجملة من لغات مختلفة إلى مساحة تضمين موحدة، حيث يمكن حساب أوجه التشابه الدلالي (كل من الصليب اللغوي والأونولينغ) بمنتج نقطة بسيطة.نماذج اللغة المدربة مسبقا صقلها بشكل جيد مع مهمة تصنيف الترجمة.يستخدم العمل الحا
تشفير لغة متعددة اللغات المدربة مسبقا، مثل Bert متعدد اللغات و XLM-R، إظهار إمكانات كبيرة للتحويل الصفر - عبر اللغات. ومع ذلك، فإن هذه اللوائح متعددة اللغات لا تحيي بالتحديد الكلمات والعبارات عبر اللغات. على وجه الخصوص، يتطلب محاذاة التعلم في مساحة ا
نقترح طريقة لتقطير معنى المعنى اللاإرادي للغات من تشفير الجملة متعددة اللغات.عن طريق إزالة المعلومات الخاصة باللغة من التضمين الأصلي، نسترجع التضمين الذي يمثله بشكل كامل معنى الجملة.تعتمد الطريقة المقترحة فقط على Corpora الموازي دون أي شروح بشرية.يتي