تقارير هذه الورقة تحسين استخدام البيانات خارج المجال في مهمة الترجمة الطبية الحيوية.حددنا أولا مجموعة بيانات التدريب الموازية باستخدام كلمات مصطلحات Babelnet داخل المجال.بعد ذلك، لزيادة مجموعة التدريب، درسنا آثار بيانات خارج المجال حول مهام الترجمة الطبية الحيوية، وقد أنشأنا مزيجا من مجموعات التدريب داخل المجال والخروج وإضافة بيانات أكثر داخل المجال باستخدامالترجمة إلى الأمام في المهمة الإنجليزية الإسبانية.أخيرا، مع طريقة تحسين BPE بسيطة، قمنا بزيادة عدد الكلمات الفرعية داخل المجال في مجموعة التدريب المختلطة لدينا وتدريب طراز المحول على البيانات التي تم إنشاؤها.تظهر النتائج تحسينات باستخدام طريقة لدينا المقترحة.
This paper reports the optimization of using the out-of-domain data in the Biomedical translation task. We firstly optimized our parallel training dataset using the BabelNet in-domain terminology words. Afterward, to increase the training set, we studied the effects of the out-of-domain data on biomedical translation tasks, and we created a mixture of in-domain and out-of-domain training sets and added more in-domain data using forward translation in the English-Spanish task. Finally, with a simple bpe optimization method, we increased the number of in-domain sub-words in our mixed training set and trained the Transformer model on the generated data. Results show improvements using our proposed method.
References used
https://aclanthology.org/
In this paper we present the FJWU's system submitted to the biomedical shared task at WMT21. We prepared state-of-the-art multilingual neural machine translation systems for three languages (i.e. German, Spanish and French) with English as target lan
This paper describes the Tencent AI Lab submission of the WMT2021 shared task on biomedical translation in eight language directions: English-German, English-French, English-Spanish and English-Russian. We utilized different Transformer architectures
This paper describes the submission of Huawei Translation Service Center (HW-TSC) to WMT21 biomedical translation task in two language pairs: Chinese↔English and German↔English (Our registered team name is HuaweiTSC). Technical details are introduced
This paper describes the Fujitsu DMATH systems used for WMT 2021 News Translation and Biomedical Translation tasks. We focused on low-resource pairs, using a simple system. We conducted experiments on English-Hausa, Xhosa-Zulu and English-Basque, and
This paper describes Tencent Translation systems for the WMT21 shared task. We participate in the news translation task on three language pairs: Chinese-English, English-Chinese and German-English. Our systems are built on various Transformer models