أصبح تجزئة الكلمات الفرعية التي يحركها البيانات هي الاستراتيجية الافتراضية للترجمة الآلية المفتوحة ومهام NLP الأخرى، ولكنها قد لا تكون عامة بما فيه الكفاية للتعلم الأمثل للمورفولوجيا غير الملعوسة.نقوم بتصميم مجموعة اختبار لتقييم استراتيجيات التجزئة على أنواع مختلفة من الظواهر المورفولوجية في بيئة ذات نصف اصطناعية محددة.في تجاربنا، قارنا نماذج الترجمة الآلية التي تم تدريبها على مستوى الكلمة الفرعية ومستوى الشخصيات ترجمة هذه الظواهر المورفولوجية.نجد أن التعلم لتحليل وإنشاء تمثيلات سطحية معقد مورفولوجية لا تزال تحديا، خاصة بالنسبة للظواهر المورفولوجية غير الملحة مثل الإدراج أو الحروف الحرارية وانسحاب الكلمة النادرة.استنادا إلى نتائجنا، نوصي باختبار استراتيجيات تمثيل نصية جديدة على مجموعة من اللغات المتنوعة من الناحية النموذجية لتقليل خطر اعتماد استراتيجية عيوب عن غير قصد بعض اللغات.
Data-driven subword segmentation has become the default strategy for open-vocabulary machine translation and other NLP tasks, but may not be sufficiently generic for optimal learning of non-concatenative morphology. We design a test suite to evaluate segmentation strategies on different types of morphological phenomena in a controlled, semi-synthetic setting. In our experiments, we compare how well machine translation models trained on subword- and character-level can translate these morphological phenomena. We find that learning to analyse and generate morphologically complex surface representations is still challenging, especially for non-concatenative morphological phenomena like reduplication or vowel harmony and for rare word stems. Based on our results, we recommend that novel text representation strategies be tested on a range of typologically diverse languages to minimise the risk of adopting a strategy that inadvertently disadvantages certain languages.
References used
https://aclanthology.org/
Multilingual pretrained representations generally rely on subword segmentation algorithms to create a shared multilingual vocabulary. However, standard heuristic algorithms often lead to sub-optimal segmentation, especially for languages with limited
The paper introduces a new resource, CoDeRooMor, for studying the morphology of modern Swedish word formation. The approximately 16.000 lexical items in the resource have been manually segmented into word-formation morphemes, and labeled for their ca
Word alignment identify translational correspondences between words in a parallel sentence pair and are used and for example and to train statistical machine translation and learn bilingual dictionaries or to perform quality estimation. Subword token
Dravidian languages, such as Kannada and Tamil, are notoriously difficult to translate by state-of-the-art neural models. This stems from the fact that these languages are morphologically very rich as well as being low-resourced. In this paper, we fo
Byte-pair encoding (BPE) is a ubiquitous algorithm in the subword tokenization process of language models as it provides multiple benefits. However, this process is solely based on pre-training data statistics, making it hard for the tokenizer to han