نحن ندرس مشكلة استخراج وسيطة الأحداث عبر اللغات (CEAE). تهدف المهمة إلى التنبؤ بأدوار حجة من يذكر الأحداث في النص، والتي تختلف لغتها عن اللغة التي تم تدريبها على نموذج تنبؤي. أظهر العمل السابق على CEAE الفوائد المتبادلة لأشجار الاعتماد الشامل في التقاط الهياكل النحوية المشتركة للجمل عبر اللغات. على وجه الخصوص، يستغل هذا العمل وجود الاتصالات النحوية بين الكلمات في أشجار التبعية كمعرفة مرساة لنقل التمثيل تعلم عبر اللغات لنماذج CEAE (I.E.، عبر الرسوم البيانية الشبكات العصبية العلاجية - GCNS). في هذه الورقة، نقدم مصادر رواية معلومات مستقلة من اللغة للحصول على نماذج CEAE بناء على التشابه الدلالي وعلاقات التبعية الشاملة في Word Pairs بلغات مختلفة. نقترح استخدام مصادر المعلومات لإنتاج هياكل جملة مشتركة لسد الفجوة بين اللغات وتحسين الأداء المتبادل لنماذج CEAE. يتم إجراء تجارب واسعة مع اللغة العربية والصينية والإنجليزية لإظهار فعالية الطريقة المقترحة للحصول على CEAE.
We study the problem of Cross-lingual Event Argument Extraction (CEAE). The task aims to predict argument roles of entity mentions for events in text, whose language is different from the language that a predictive model has been trained on. Previous work on CEAE has shown the cross-lingual benefits of universal dependency trees in capturing shared syntactic structures of sentences across languages. In particular, this work exploits the existence of the syntactic connections between the words in the dependency trees as the anchor knowledge to transfer the representation learning across languages for CEAE models (i.e., via graph convolutional neural networks -- GCNs). In this paper, we introduce two novel sources of language-independent information for CEAE models based on the semantic similarity and the universal dependency relations of the word pairs in different languages. We propose to use the two sources of information to produce shared sentence structures to bridge the gap between languages and improve the cross-lingual performance of the CEAE models. Extensive experiments are conducted with Arabic, Chinese, and English to demonstrate the effectiveness of the proposed method for CEAE.
References used
https://aclanthology.org/
Document-level event extraction is critical to various natural language processing tasks for providing structured information. Existing approaches by sequential modeling neglect the complex logic structures for long texts. In this paper, we leverage
Recent multilingual pre-trained language models have achieved remarkable zero-shot performance, where the model is only finetuned on one source language and directly evaluated on target languages. In this work, we propose a self-learning framework th
In this paper, we propose to align sentence representations from different languages into a unified embedding space, where semantic similarities (both cross-lingual and monolingual) can be computed with a simple dot product. Pre-trained language mode
Pre-trained multilingual language encoders, such as multilingual BERT and XLM-R, show great potential for zero-shot cross-lingual transfer. However, these multilingual encoders do not precisely align words and phrases across languages. Especially, le
We propose a method to distill a language-agnostic meaning embedding from a multilingual sentence encoder. By removing language-specific information from the original embedding, we retrieve an embedding that fully represents the sentence's meaning. T