ترغب بنشر مسار تعليمي؟ اضغط هنا

تقسيم الكلمات المتكررة عالية المتكررة والترجمة الأمامية للمهمة الطبية الحيوية WMT21

High Frequent In-domain Words Segmentation and Forward Translation for the WMT21 Biomedical Task

235   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقارير هذه الورقة تحسين استخدام البيانات خارج المجال في مهمة الترجمة الطبية الحيوية.حددنا أولا مجموعة بيانات التدريب الموازية باستخدام كلمات مصطلحات Babelnet داخل المجال.بعد ذلك، لزيادة مجموعة التدريب، درسنا آثار بيانات خارج المجال حول مهام الترجمة الطبية الحيوية، وقد أنشأنا مزيجا من مجموعات التدريب داخل المجال والخروج وإضافة بيانات أكثر داخل المجال باستخدامالترجمة إلى الأمام في المهمة الإنجليزية الإسبانية.أخيرا، مع طريقة تحسين BPE بسيطة، قمنا بزيادة عدد الكلمات الفرعية داخل المجال في مجموعة التدريب المختلطة لدينا وتدريب طراز المحول على البيانات التي تم إنشاؤها.تظهر النتائج تحسينات باستخدام طريقة لدينا المقترحة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم نظام FJWU مقدم إلى المهمة المشتركة الطبية الحيوية في WMT21.أعدت أنظمة الترجمة الآلية العصبية متعددة اللغات لمدة ثلاث لغات (أي الألمانية والإسبانية والفرنسية) مع اللغة الإنجليزية كلغة مستهدفة.تم تدريب أنظمة NMT الخاصة بنا المستندة إلى بنية المحولات، على مجموعة من كورسيا الموازية داخل المجال والخروج المستخدمة باستخدام تقنيات استرجاع المعلومات (IR) وتقنيات تكيف المجال.
تصف هذه الورقة تقديم مختبر Tencent AI المهمة المشتركة WMT2021 على الترجمة الطبية الحيوية في ثمانية اتجاهات اللغة: الإنجليزية والألمانية والفرنسية والفرنسية والإنجليزية والإسبانية والإنجليزية الروسية.استغلنا بديكنات محولات مختلفة واستراتيجيات الترجمة المرجانية وتحسينها لتحسين جودة الترجمة.بشكل ملموس، نستكشف MBART (ليو وآخرون، 2020) لإظهار فعالية استراتيجية الاحتجاج.تحتل إرسال طلباتنا (Tencent AI Lab Machine Translation، TMT) باللغة الألمانية / الفرنسية / الإسبانية⇒إنجللوي على التوالي وفقا لنتائج التقييم الرسمي من حيث درجات بلو.
تصف هذه الورقة تقديم مركز خدمة الترجمة Huawei (HW-TSC) إلى مهمة الترجمة الطبية الحيوية WMT21 في أزواج لغتان باللغة: Chinese↔english و German↔english (اسم فريقنا المسجل هو Huaweitsc).يتم تقديم التفاصيل الفنية في هذه الورقة، بما في ذلك الإطار النموذجي وطريقة معالجة البيانات مسبقا واستراتيجيات تحسين النماذج.بالإضافة إلى ذلك، باستخدام مجموعة الاختبار الطبية الحيوية WMT20 OK- محاذاة، نقارن وتحليل عروض النظام بموجب استراتيجيات مختلفة.على مهمة الترجمة الطبية الحيوية WMT21، أنظمتنا في اللغة الإنجليزية → الصينية والإنجليزية → اتجاهات ألمانية تحصل على أعلى درجات بلو بين جميع التقديمات وفقا لنتائج التقييم الرسمي.
تصف هذه الورقة أنظمة Fujitsu Dmath المستخدمة لترجمة WMT 2021، ومهام الترجمة الطبية الحيوية.ركزنا على أزواج منخفضة الموارد، باستخدام نظام بسيط.أجرينا تجارب على اللغة الإنجليزية هوسا، Xhosa-Zulu والإنجليزية-الباسك، وقدمت نتائج Xhosa → Zulu في مهمة ترجم ة الأخبار، والإنجليزية → الباسك في مهمة الترجمة الطبية الحيوية، ومصادر الترجمة التابعة للمصطلح والمصطلحات.يجمع نظامنا بين تسرب BPE، ميزات الكلمات الفرعية الفرعية والترجمة الخلفي مع نموذج محول (قاعدة)، وتحقيق نتائج جيدة على مجموعات التقييم.
تصف هذه الورقة أنظمة Tencent Translation ذات المهمة المشتركة WMT21. نشارك في مهمة ترجمة الأخبار على ثلاث أزواج لغة: الصينية-الإنجليزية والإنجليزية والصينية والألمانية والإنجليزية. يتم بناء أنظمتنا على نماذج محولات مختلفة مع تقنيات جديدة تتكيف من عملن ا البحثي الأخير. أولا، نجمع بين طرق تكبير البيانات المختلفة بما في ذلك الترجمة المرجودة والترجمة الأمامية والتدريب من اليمين إلى اليسار لتوسيع بيانات التدريب. نستخدم أيضا تحيز التغطية اللغوية وتجديد البيانات ونهج أخذ العينات المستندة إلى عدم اليقين لتحديد بيانات ذات صلة بالمحتوى وعالية الجودة من كوربورا متوازية ومونولجة كبيرة. نتوقع أن يتم ضبطه بشكل جيد في المجال، ونقترح أيضا نماذج واحدة المحبوثة نموذج واحد "" لنموذج خصائص نموذجية لأنواع الأخبار المختلفة عند مراحل الركود الدقيقة وفك التشفير. علاوة على ذلك، نستخدم خوارزمية الفرقة القائمة على الجشع وطريقة الفرقة المتناقلة لتعزيز أنظمتنا. بناء على نجاحنا في آخر WMT، فإننا أعملنا باستمرار تقنيات متقدمة مثل التدريب الدفاعي الكبير واختيار البيانات وتصفية البيانات. أخيرا، يحقق نظامنا الصيني والإنجليزي المقيد 33.4 درجة بلو حساسة للحالة، وهو الأعلى بين جميع التقديمات. يتم تصنيف نظام اللغة الإنجليزية الألمانية في المركز الثاني وفقا لذلك.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا