تجزئة الكلمات الفرعية هي حاليا أداة قياسية لتدريب أنظمة الترجمة الآلية العصبية (MT) ومهام NLP الأخرى. الهدف هو تقسيم الكلمات (في المصدر واللغات المستهدفة) إلى وحدات أصغر تشكل بعد ذلك المدخلات ومفردات نظام MT. الهدف من الحد من حجم المدخلات ومفردات الإخراج هو زيادة قدرات تعميم نموذج الترجمة، مما يتيح للنظام ترجمة وإنشاء كلمات نادرة وجديدة (غير مرئية) في وقت الاستدلال من خلال الجمع بين الوحدات الفرعية التي شوهدت سابقا. من الناحية المثالية، نتوقع أن تحتوي الوحدات التي تم إنشاؤها بعض المعنى اللغوي، بحيث يتم إنشاء الكلمات بطريقة ترفيهية. ومع ذلك، فإن أكثر طريقة تقسيم الكلمات الأكثر شعبية، ترميز بايت زوج (BPE)، والتي تنشأ من أدب ضغط البيانات، لا تشمل معايير صريحة لصالح الانقصام اللغوي أو للعثور على الحبيبية الفرعية الأمثل للكلمة الفرعية لبيانات التدريب المعطاة. في هذه الورقة، نقترح امتداد دوافع إحصائية خوارزمية BPE ومعيار التقارب الفعال الذي يتجنب دورة التجربة المكلفة اللازمة لتحديد أفضل حجم المفردات الفرعية. تظهر النتائج التجريبية مع اللغات الغنية المورفولوجية أن نموذجنا يحصل على درجات Bleu المثالية تقريبا وتنتج تجزئة كلمات أفضل مورفولوجية، مما يسمح بتوسيع نطاق تعميم BPE في ترجمة الجمل التي تحتوي على كلمات جديدة، كما هو موضح عبر التقييم البشري.
Sub-word segmentation is currently a standard tool for training neural machine translation (MT) systems and other NLP tasks. The goal is to split words (both in the source and target languages) into smaller units which then constitute the input and output vocabularies of the MT system. The aim of reducing the size of the input and output vocabularies is to increase the generalization capabilities of the translation model, enabling the system to translate and generate infrequent and new (unseen) words at inference time by combining previously seen sub-word units. Ideally, we would expect the created units to have some linguistic meaning, so that words are created in a compositional way. However, the most popular word-splitting method, Byte-Pair Encoding (BPE), which originates from the data compression literature, does not include explicit criteria to favor linguistic splittings nor to find the optimal sub-word granularity for the given training data. In this paper, we propose a statistically motivated extension of the BPE algorithm and an effective convergence criterion that avoids the costly experimentation cycle needed to select the best sub-word vocabulary size. Experimental results with morphologically rich languages show that our model achieves nearly-optimal BLEU scores and produces morphologically better word segmentations, which allows to outperform BPE's generalization in the translation of sentences containing new words, as shown via human evaluation.
References used
https://aclanthology.org/
Abstract The quality of a summarization evaluation metric is quantified by calculating the correlation between its scores and human annotations across a large number of summaries. Currently, it is unclear how precise these correlation estimates are,
The neural machine translation approach has gained popularity in machine translation because of its context analysing ability and its handling of long-term dependency issues. We have participated in the WMT21 shared task of similar language translati
This paper presents a method for automatically identifying bilingual grammar patterns and extracting bilingual phrase instances from a given English-Chinese sentence pair. In our approach, the English-Chinese sentence pair is parsed to identify Engli
In this paper, we focus on identifying interactive argument pairs from two posts with opposite stances to a certain topic. Considering opinions are exchanged from different perspectives of the discussing topic, we study the discrete representations f
Although showing promising values to downstream applications, generating question and answer together is under-explored. In this paper, we introduce a novel task that targets question-answer pair generation from visual images. It requires not only ge