امتداد إحصائي لترميز بايت زوج


الملخص بالعربية

تجزئة الكلمات الفرعية هي حاليا أداة قياسية لتدريب أنظمة الترجمة الآلية العصبية (MT) ومهام NLP الأخرى. الهدف هو تقسيم الكلمات (في المصدر واللغات المستهدفة) إلى وحدات أصغر تشكل بعد ذلك المدخلات ومفردات نظام MT. الهدف من الحد من حجم المدخلات ومفردات الإخراج هو زيادة قدرات تعميم نموذج الترجمة، مما يتيح للنظام ترجمة وإنشاء كلمات نادرة وجديدة (غير مرئية) في وقت الاستدلال من خلال الجمع بين الوحدات الفرعية التي شوهدت سابقا. من الناحية المثالية، نتوقع أن تحتوي الوحدات التي تم إنشاؤها بعض المعنى اللغوي، بحيث يتم إنشاء الكلمات بطريقة ترفيهية. ومع ذلك، فإن أكثر طريقة تقسيم الكلمات الأكثر شعبية، ترميز بايت زوج (BPE)، والتي تنشأ من أدب ضغط البيانات، لا تشمل معايير صريحة لصالح الانقصام اللغوي أو للعثور على الحبيبية الفرعية الأمثل للكلمة الفرعية لبيانات التدريب المعطاة. في هذه الورقة، نقترح امتداد دوافع إحصائية خوارزمية BPE ومعيار التقارب الفعال الذي يتجنب دورة التجربة المكلفة اللازمة لتحديد أفضل حجم المفردات الفرعية. تظهر النتائج التجريبية مع اللغات الغنية المورفولوجية أن نموذجنا يحصل على درجات Bleu المثالية تقريبا وتنتج تجزئة كلمات أفضل مورفولوجية، مما يسمح بتوسيع نطاق تعميم BPE في ترجمة الجمل التي تحتوي على كلمات جديدة، كما هو موضح عبر التقييم البشري.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث