التجرخص تحديد العوامل التي تجعل لغات معينة يصعب طرازها من غيرها ضرورية للوصول إلى المساواة اللغوية في تكنولوجيات معالجة اللغة الطبيعية في المستقبل. لقد أثبتت لغات وضع علامات الترتيب الحرة، مثل اللغة الروسية أو اللاتينية أو التاميلية أكثر تحديا أكثر من لغات الطلب الثابت لمهام التنبؤ بالتحليل النحوي وتنبؤ اتفاقية الأم الفعل. في هذا العمل، نحقق ما إذا كانت هذه الفئة من اللغات أكثر صعوبة أيضا ترجمتها من قبل نماذج الترجمة الآلية الحديثة (NMT). باستخدام مجموعة متنوعة من اللغات الاصطناعية ومجموعة تحدي الترجمة المقدمة حديثا، نجد أن مرونة ترتيب الكلمات في اللغة المصدر تؤدي فقط إلى فقدان جودة NMT فقط، على الرغم من أن حجج الفعل الأساسية تصبح مستحيلة في الغموض في الجمل دون إشارات دلالية وبعد تم حل المشكلة الأخيرة بالفعل عن طريق إضافة علامات الحالة. ومع ذلك، في إعدادات الموارد المتوسطة والمنخفضة، لا تزال جودة NMT الإجمالية لغات النظام الثابت لا مثيل لها.
Abstract Identifying factors that make certain languages harder to model than others is essential to reach language equality in future Natural Language Processing technologies. Free-order case-marking languages, such as Russian, Latin, or Tamil, have proved more challenging than fixed-order languages for the tasks of syntactic parsing and subject-verb agreement prediction. In this work, we investigate whether this class of languages is also more difficult to translate by state-of-the-art Neural Machine Translation (NMT) models. Using a variety of synthetic languages and a newly introduced translation challenge set, we find that word order flexibility in the source language only leads to a very small loss of NMT quality, even though the core verb arguments become impossible to disambiguate in sentences without semantic cues. The latter issue is indeed solved by the addition of case marking. However, in medium- and low-resource settings, the overall NMT quality of fixed-order languages remains unmatched.
References used
https://aclanthology.org/
Word segmentation, the problem of finding word boundaries in speech, is of interest for a range of tasks. Previous papers have suggested that for sequence-to-sequence models trained on tasks such as speech translation or speech recognition, attention
In this work, we investigate methods for the challenging task of translating between low- resource language pairs that exhibit some level of similarity. In particular, we consider the utility of transfer learning for translating between several Indo-
This research discusses the operational integration mechanism between a seaport and
a free zone, a case study on Jebel Ali Free Zone; selecting Jebel for its high performance
and distinguished position achieved on both Arabic and International leve
Multilingual neural machine translation models typically handle one source language at a time. However, prior work has shown that translating from multiple source languages improves translation quality. Different from existing approaches on multi-sou
Few-shot relation extraction (FSRE) focuses on recognizing novel relations by learning with merely a handful of annotated instances. Meta-learning has been widely adopted for such a task, which trains on randomly generated few-shot tasks to learn gen