تكييف ترتيب الكلمات من لغة واحدة إلى أخرى هو مشكلة رئيسية في التنبؤ المنظم عبر اللغات.تشفير الجملة الحالية (على سبيل المثال، RNN، محول مع تضيير الموقف) هي عادة ترتيب الكلمة الحساسة.حتى مع وجود تمثيلات نموذج موحدة (MUSE، MBERT)، قد تؤذي تناقضات ترتيب الكلمات التكيف مع النماذج.في هذه الورقة، نبني نماذج التنبؤ الهيكلية بمدخلات كيس من الكلمات، وإدخال وحدة إعادة ترتيب جديدة لتنظيم الكلمات بعد ترتيب لغة المصدر، والذي يتعلم استراتيجيات إعادة ترتيب محددة المهام من نموذج تنبئ النظام للأغراض العامة.تظهر التجارب على تحليل التبعية المتبادلة الصفرية وعلامات نقاط البيع، والعلامات المورفولوجية أن طرازنا يمكن أن يحسن بشكل كبير من أداء اللغات المستهدفة، وخاصة لغات بعيدة عن اللغة المصدر.
Adapting word order from one language to another is a key problem in cross-lingual structured prediction. Current sentence encoders (e.g., RNN, Transformer with position embeddings) are usually word order sensitive. Even with uniform word form representations (MUSE, mBERT), word order discrepancies may hurt the adaptation of models. In this paper, we build structured prediction models with bag-of-words inputs, and introduce a new reordering module to organizing words following the source language order, which learns task-specific reordering strategies from a general-purpose order predictor model. Experiments on zero-shot cross-lingual dependency parsing, POS tagging, and morphological tagging show that our model can significantly improve target language performances, especially for languages that are distant from the source language.
References used
https://aclanthology.org/
Coupled with the availability of large scale datasets, deep learning architectures have enabled rapid progress on the Question Answering task. However, most of those datasets are in English, and the performances of state-of-the-art multilingual model
We propose a simple method to generate multilingual question and answer pairs on a large scale through the use of a single generative model. These synthetic samples can be used to improve the zero-shot performance of multilingual QA models on target
Multilingual question answering over knowledge graph (KGQA) aims to derive answers from a knowledge graph (KG) for questions in multiple languages. To be widely applicable, we focus on its zero-shot transfer setting. That is, we can only access train
Multilingual pre-trained models have achieved remarkable performance on cross-lingual transfer learning. Some multilingual models such as mBERT, have been pre-trained on unlabeled corpora, therefore the embeddings of different languages in the models
Multilingual pre-trained contextual embedding models (Devlin et al., 2019) have achieved impressive performance on zero-shot cross-lingual transfer tasks. Finding the most effective fine-tuning strategy to fine-tune these models on high-resource lang