نهج يستند إلى المحاذاة إلى تحريض المعجم الثنائي اللبيعي شبه الإشرافه مع شركة صغيرة موازية


الملخص بالعربية

تهدف إلى توليد معجم البذور للاستخدام في مهام اللغة الطبيعية المصب والأساليب غير الخاضعة للرقابة لتحريض المعجم الثنائي اللغة قد حصلت على الكثير من الاهتمام في الأدبيات الأكاديمية مؤخرا. في حين أن الإعدادات المثيرة للاهتمام وغير المدمرة بالكامل غير واقعية؛ عادة ما تكون كميات صغيرة من البيانات ثنائية اللغة متاحة عادة بسبب وجود كوربوريل متوازي متعدد اللغات بشكل كبير، يمكن أن يخلق اللغويين كميات صغيرة من البيانات الموازية. في هذا العمل، نوضح نهجا فعالا من Bootstrapping لتعريفات المعجم الثنائية الشرفية شبه الإشراف التي تتمتع بنقاط القوة التكميلية لطريقين متباينين ​​لتحقيق المعجم الثنائي اللغة. في حين أن الطرق الإحصائية فعالة للغاية في حث أزواج الترجمة الصحيحة للكلمات التي تحدث في كثير من الأحيان في كوربوس موازية ومساحات تضمين أحادية مونولينغ لديها ميزة تم تدريبها على كميات كبيرة من البيانات، وبالتالي قد تحفز ترجمات دقيقة للكلمات غائبة عن الكائنات الصغيرة. من خلال الجمع بين هذه القوة النسبية وطريقتنا تحقق نتائج أحدث من الفن في 3 من 4 أزواج لغة في مجموعة اختبار VECMAP الصعبة التي تستخدم الحد الأدنى من الكميات من البيانات الموازية ودون الحاجة إلى قاموس الترجمة. نطلق تنفيذنا على www.blind-review.code.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث