ترغب بنشر مسار تعليمي؟ اضغط هنا

تعتمد تمثيلات إعادة ربط متعددة اللغات عموما على خوارزميات تجزئة الكلمات الفرعية لإنشاء مفردات مشتركة متعددة اللغات. ومع ذلك، غالبا ما تؤدي خوارزميات المثيرة العادية في كثير من الأحيان إلى تجزئة فرعية مثالية، خاصة للغات ذات كميات محدودة من البيانات. ف ي هذه الورقة، نأخذ خطوتين رئيسيتين نحو تخفيف هذه المشكلة. أولا، نوضح تجريبيا أن تطبيق طرق تنظيم الكلمات الفرعية الحالية (KUDO، 2018؛ ProviLkov et al.، 2020)، 2020) أثناء ضبط التوصيلات المتعددة اللغات المدربة مسبقا يحسن فعالية التحويل عبر اللغات. ثانيا، للاستفادة الكاملة من مختلف تجزئة المدخلات المحتملة، نقترح تنظيم الكلمات الفرعية المتعددة للنظر (MVR)، وهي طريقة تطبق تناسق التنبؤ بين استخدام المدخلات التي يتم تخصيصها من خلال تجزئة المعيار والاحتمالية. النتائج على مرجع Xtreme متعدد اللغات (هو وآخرون، 2020) تظهر أن MVR يجلب تحسينات ثابتة تصل إلى 2.5 نقطة باستخدام خوارزميات تجزئة قياسية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا