ترغب بنشر مسار تعليمي؟ اضغط هنا

في لغات parataxis مثل الصينية، يتم بناء معاني الكلمات باستخدام تكوينات كلمات محددة، والتي يمكن أن تساعد في إزالة حواس الكلمات.ومع ذلك، نادرا ما يتم استكشاف هذه المعرفة في أساليب Disambiguation Sense (WSD) السابقة.في هذه الورقة، نقترح نفايات المعرفة ب تكوين النصوص لتعزيز WSD الصيني.نحن أولا بناء مجموعة بيانات WSD الصينية على نطاق واسع مع تكوينات الكلمات.بعد ذلك، نقترح نموذج صيغة نموذجية لإدماج تكوين الكلمات بشكل صريح في حالة إزالة الغموض.لتعزيز التعميم، نقوم بتصميم وحدة تنقية تكوين كلمة في حالة تعويض تكوين كلمة غير متوفرة.تظهر النتائج التجريبية أن طريقتنا تجلب تحسن كبير في الأداء على خطوط خطوط خطوط خطوط طويلة.
أصبحت الترجمة المرجودة (BT) واحدة من مكونات الأمر الواقع في الترجمة الآلية العصبية غير المنشأة (UNMT)، ويجعل صراحة لديها القدرة على الترجمة. ومع ذلك، يتم التعامل مع جميع النصوص الثنائية الزائفة التي تم إنشاؤها بواسطة BT بنفس القدر كبيانات نظيفة أثناء التحسين دون النظر في تنوع الجودة، مما يؤدي إلى التقارب البطيء وأداء الترجمة المحدود. لمعالجة هذه المشكلة، نقترح طريقة تعلم المناهج الدراسية للاستفادة تدريجيا من النصوص الثنائية الزائفة القائمة على جودتها من التعبيات المتعددة. على وجه التحديد، نقوم أولا بتطبيق تضمين كلمة crosslingual لحساب صعوبة الترجمة المحتملة (الجودة) للجمل الأولية. بعد ذلك، يتم تغذية الجمل في برنامج التعريف الخاص ب UNMT من السهل إلى الدفعة الصلبة عن طريق الدفعة. علاوة على ذلك، بالنظر إلى جودة الجمل / الرموز في دفعة معينة هي متنوعة أيضا، فإننا نتخذ النموذج نفسه لحساب درجات الجودة المحبوبة بشكل جيد، والتي يتم تقديمها كعامل تعليمي لموازنة مساهمات أجزاء مختلفة عند فقد الحوسبة وتشجيعها نموذج UNMT للتركيز على البيانات الزائفة بجودة أعلى. النتائج التجريبية على WMT 14 EN-FR، WMT 14 EN-DE، WMT 16 EN-RO، و LDC EN-ZH توضح أن الطريقة المقترحة تحقق تحسينات ثابتة مع سرعة التقارب الأسرع.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا