تعتمد تمثيلات إعادة ربط متعددة اللغات عموما على خوارزميات تجزئة الكلمات الفرعية لإنشاء مفردات مشتركة متعددة اللغات. ومع ذلك، غالبا ما تؤدي خوارزميات المثيرة العادية في كثير من الأحيان إلى تجزئة فرعية مثالية، خاصة للغات ذات كميات محدودة من البيانات. في هذه الورقة، نأخذ خطوتين رئيسيتين نحو تخفيف هذه المشكلة. أولا، نوضح تجريبيا أن تطبيق طرق تنظيم الكلمات الفرعية الحالية (KUDO، 2018؛ ProviLkov et al.، 2020)، 2020) أثناء ضبط التوصيلات المتعددة اللغات المدربة مسبقا يحسن فعالية التحويل عبر اللغات. ثانيا، للاستفادة الكاملة من مختلف تجزئة المدخلات المحتملة، نقترح تنظيم الكلمات الفرعية المتعددة للنظر (MVR)، وهي طريقة تطبق تناسق التنبؤ بين استخدام المدخلات التي يتم تخصيصها من خلال تجزئة المعيار والاحتمالية. النتائج على مرجع Xtreme متعدد اللغات (هو وآخرون، 2020) تظهر أن MVR يجلب تحسينات ثابتة تصل إلى 2.5 نقطة باستخدام خوارزميات تجزئة قياسية.
Multilingual pretrained representations generally rely on subword segmentation algorithms to create a shared multilingual vocabulary. However, standard heuristic algorithms often lead to sub-optimal segmentation, especially for languages with limited amounts of data. In this paper, we take two major steps towards alleviating this problem. First, we demonstrate empirically that applying existing subword regularization methods (Kudo, 2018; Provilkov et al., 2020) during fine-tuning of pre-trained multilingual representations improves the effectiveness of cross-lingual transfer. Second, to take full advantage of different possible input segmentations, we propose Multi-view Subword Regularization (MVR), a method that enforces the consistency of predictors between using inputs tokenized by the standard and probabilistic segmentations. Results on the XTREME multilingual benchmark (Hu et al., 2020) show that MVR brings consistent improvements of up to 2.5 points over using standard segmentation algorithms.
References used
https://aclanthology.org/
Word alignment identify translational correspondences between words in a parallel sentence pair and are used and for example and to train statistical machine translation and learn bilingual dictionaries or to perform quality estimation. Subword token
Byte-pair encoding (BPE) is a ubiquitous algorithm in the subword tokenization process of language models as it provides multiple benefits. However, this process is solely based on pre-training data statistics, making it hard for the tokenizer to han
Data-driven subword segmentation has become the default strategy for open-vocabulary machine translation and other NLP tasks, but may not be sufficiently generic for optimal learning of non-concatenative morphology. We design a test suite to evaluate
State-of-the-art multilingual systems rely on shared vocabularies that sufficiently cover all considered languages. To this end, a simple and frequently used approach makes use of subword vocabularies constructed jointly over several languages. We hy
Fine-tuning pre-trained language models suchas BERT has become a common practice dom-inating leaderboards across various NLP tasks.Despite its recent success and wide adoption,this process is unstable when there are onlya small number of training sam