في حين أظهرت نماذج اللغة المحددة مسببة اللغات متعددة اللغات (LMS) بشكل جيد على لغة واحدة إمكانات نقل مهمة متبادلة كبيرة، لا تزال هناك فجوة في الأداء الواسعة في مهام التحليل الدلالي عند توفر إشراف اللغة المستهدف.في هذه الورقة، نقترح طريقة رواية ترجمية وملء (TAF) لإنتاج بيانات تدريبية فضية لمحلل دلالي متعدد اللغات.تبسط هذه الطريقة خط أنابيب المحاذاة المشهورة للمحاذاة (انقر) وتتكون من نموذج حشو تسلسل إلى تسلسل يبني تحليل كامل مشروط على الكلام وعرض نفس التحليل.يتم تدريب الحشو لدينا على بيانات اللغة الإنجليزية فقط ولكن يمكن أن تكمل بدقة مثيلات بلغات أخرى (I.E.، ترجمات كلمات التدريب على اللغة الإنجليزية)، في أزياء صفرية بالرصاص.النتائج التجريبية على ثلاث مجموعات بيانات تحليل دلالية متعددة اللغات تظهر أن تكبير البيانات مع TAV يصل إلى دقة تنافسية مع أنظمة مماثلة تعتمد على تقنيات المحاذاة التقليدية.
While multilingual pretrained language models (LMs) fine-tuned on a single language have shown substantial cross-lingual task transfer capabilities, there is still a wide performance gap in semantic parsing tasks when target language supervision is available. In this paper, we propose a novel Translate-and-Fill (TaF) method to produce silver training data for a multilingual semantic parser. This method simplifies the popular Translate-Align-Project (TAP) pipeline and consists of a sequence-to-sequence filler model that constructs a full parse conditioned on an utterance and a view of the same parse. Our filler is trained on English data only but can accurately complete instances in other languages (i.e., translations of the English training utterances), in a zero-shot fashion. Experimental results on three multilingual semantic parsing datasets show that data augmentation with TaF reaches accuracies competitive with similar systems which rely on traditional alignment techniques.
References used
https://aclanthology.org/
Previous work mainly focuses on improving cross-lingual transfer for NLU tasks with a multilingual pretrained encoder (MPE), or improving the performance on supervised machine translation with BERT. However, it is under-explored that whether the MPE
Coupled with the availability of large scale datasets, deep learning architectures have enabled rapid progress on the Question Answering task. However, most of those datasets are in English, and the performances of state-of-the-art multilingual model
We propose a simple method to generate multilingual question and answer pairs on a large scale through the use of a single generative model. These synthetic samples can be used to improve the zero-shot performance of multilingual QA models on target
Pre-trained multilingual language encoders, such as multilingual BERT and XLM-R, show great potential for zero-shot cross-lingual transfer. However, these multilingual encoders do not precisely align words and phrases across languages. Especially, le
We study multilingual AMR parsing from the perspective of knowledge distillation, where the aim is to learn and improve a multilingual AMR parser by using an existing English parser as its teacher. We constrain our exploration in a strict multilingua