تقسيم الكلمات المتكررة عالية المتكررة والترجمة الأمامية للمهمة الطبية الحيوية WMT21


الملخص بالعربية

تقارير هذه الورقة تحسين استخدام البيانات خارج المجال في مهمة الترجمة الطبية الحيوية.حددنا أولا مجموعة بيانات التدريب الموازية باستخدام كلمات مصطلحات Babelnet داخل المجال.بعد ذلك، لزيادة مجموعة التدريب، درسنا آثار بيانات خارج المجال حول مهام الترجمة الطبية الحيوية، وقد أنشأنا مزيجا من مجموعات التدريب داخل المجال والخروج وإضافة بيانات أكثر داخل المجال باستخدامالترجمة إلى الأمام في المهمة الإنجليزية الإسبانية.أخيرا، مع طريقة تحسين BPE بسيطة، قمنا بزيادة عدد الكلمات الفرعية داخل المجال في مجموعة التدريب المختلطة لدينا وتدريب طراز المحول على البيانات التي تم إنشاؤها.تظهر النتائج تحسينات باستخدام طريقة لدينا المقترحة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث