تجزئة الكلمات الفرعية هي حاليا أداة قياسية لتدريب أنظمة الترجمة الآلية العصبية (MT) ومهام NLP الأخرى. الهدف هو تقسيم الكلمات (في المصدر واللغات المستهدفة) إلى وحدات أصغر تشكل بعد ذلك المدخلات ومفردات نظام MT. الهدف من الحد من حجم المدخلات ومفردات الإخراج هو زيادة قدرات تعميم نموذج الترجمة، مما يتيح للنظام ترجمة وإنشاء كلمات نادرة وجديدة (غير مرئية) في وقت الاستدلال من خلال الجمع بين الوحدات الفرعية التي شوهدت سابقا. من الناحية المثالية، نتوقع أن تحتوي الوحدات التي تم إنشاؤها بعض المعنى اللغوي، بحيث يتم إنشاء الكلمات بطريقة ترفيهية. ومع ذلك، فإن أكثر طريقة تقسيم الكلمات الأكثر شعبية، ترميز بايت زوج (BPE)، والتي تنشأ من أدب ضغط البيانات، لا تشمل معايير صريحة لصالح الانقصام اللغوي أو للعثور على الحبيبية الفرعية الأمثل للكلمة الفرعية لبيانات التدريب المعطاة. في هذه الورقة، نقترح امتداد دوافع إحصائية خوارزمية BPE ومعيار التقارب الفعال الذي يتجنب دورة التجربة المكلفة اللازمة لتحديد أفضل حجم المفردات الفرعية. تظهر النتائج التجريبية مع اللغات الغنية المورفولوجية أن نموذجنا يحصل على درجات Bleu المثالية تقريبا وتنتج تجزئة كلمات أفضل مورفولوجية، مما يسمح بتوسيع نطاق تعميم BPE في ترجمة الجمل التي تحتوي على كلمات جديدة، كما هو موضح عبر التقييم البشري.
Sub-word segmentation is currently a standard tool for training neural machine translation (MT) systems and other NLP tasks. The goal is to split words (both in the source and target languages) into smaller units which then constitute the input and output vocabularies of the MT system. The aim of reducing the size of the input and output vocabularies is to increase the generalization capabilities of the translation model, enabling the system to translate and generate infrequent and new (unseen) words at inference time by combining previously seen sub-word units. Ideally, we would expect the created units to have some linguistic meaning, so that words are created in a compositional way. However, the most popular word-splitting method, Byte-Pair Encoding (BPE), which originates from the data compression literature, does not include explicit criteria to favor linguistic splittings nor to find the optimal sub-word granularity for the given training data. In this paper, we propose a statistically motivated extension of the BPE algorithm and an effective convergence criterion that avoids the costly experimentation cycle needed to select the best sub-word vocabulary size. Experimental results with morphologically rich languages show that our model achieves nearly-optimal BLEU scores and produces morphologically better word segmentations, which allows to outperform BPE's generalization in the translation of sentences containing new words, as shown via human evaluation.
المراجع المستخدمة
https://aclanthology.org/
مجردة تم تحديد نوعية تقييم تقييم التلخيص من خلال حساب الارتباط بين درجاته والشروح البشرية عبر عدد كبير من الملخصات. في الوقت الحالي، من غير الواضح مدى دقة تقديرات الارتباط هذه، ولا عما إذا كانت الاختلافات بين علاقات المقاييس تعكس فرقا حقيقيا أو إذا ك
اكتسبت نهج الترجمة الآلية العصبية شعبية في الترجمة الآلية بسبب تحليل سياقها وقدرتها ومعالجتها لقضايا الاعتماد على المدى الطويل.لقد شاركنا في المهمة المشتركة WMT21 الخاصة بترجمة اللغة المماثلة على زوج التاميل التيلجو مع اسم الفريق: NILP-NITS.في هذه ال
تقدم هذه الورقة طريقة لتحديد أنماط قواعد اللغة الثنائية الثابتة وتستقل مثيلات العبارات ثنائية اللغة من زوج الجملة الإنجليزي - الصينية.في نهجنا، يتم تحليل زوج الجملة الإنجليزية الصينية لتحديد أنماط القواعد الإنجليزية والنظرات الصينية.تنطوي الطريقة على
في هذه الورقة، نركز على تحديد أزواج الحجة التفاعلية من وظيفتين مع مواقف معاكسة إلى موضوع معين.النظر في الآراء يتم تبادلها من وجهات نظر مختلفة موضوع المناقشة، ندرس تمثيلات منفصلة للحجج لالتقاط جوانب متفاوتة في لغات الحال (على سبيل المثال، التركيز من ا
على الرغم من إظهار قيم واعدة للتطبيقات المصب، فإن توليد السؤال والإجابة معا يتم استكشافها. في هذه الورقة، نقدم مهمة جديدة تستهدف توليد زوج الإجابة على الأسئلة من الصور المرئية. لا يتطلب عدم توليد أزواج حول الإجابات المتنوعة فقط ولكن أيضا الحفاظ على ا