ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين محاذاة Word مع تكييف الكلمات الفرعية الأفضل

Optimizing Word Alignments with Better Subword Tokenization

384   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحدد محاذاة Word المراسلات المتعلقة بالمراسلات بين الكلمات في زوج جملة متوازية وتستخدم ومثالا وتدريب الترجمة ذات الجهاز الإحصائي وتعلم قواميس ثنائية اللغة أو لأداء تقدير الجودة.أصبح Totkenization في الكلمات الفرعية خطوة مسبقة مسبق لمعاييرها لعدد كبير من التطبيقات وخاصة أنظمة الترجمة الآلية المفتوحة لمفردات الأحدث.في هذه الورقة، ندرس تماما كيف تتفاعل هذه الخطوة المعالجة مسبقا مع مهمة محاذاة الكلمة واقتراح عدة استراتيجيات التكوين للحصول على كورسا موازية مجزأة جيدا.باستخدام هذه التقنيات الجديدة وتمكنا من تحسين نماذج المحاذاة القائمة على الكلمات الأساسية لستة أزواج لغوية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعتمد تمثيلات إعادة ربط متعددة اللغات عموما على خوارزميات تجزئة الكلمات الفرعية لإنشاء مفردات مشتركة متعددة اللغات. ومع ذلك، غالبا ما تؤدي خوارزميات المثيرة العادية في كثير من الأحيان إلى تجزئة فرعية مثالية، خاصة للغات ذات كميات محدودة من البيانات. ف ي هذه الورقة، نأخذ خطوتين رئيسيتين نحو تخفيف هذه المشكلة. أولا، نوضح تجريبيا أن تطبيق طرق تنظيم الكلمات الفرعية الحالية (KUDO، 2018؛ ProviLkov et al.، 2020)، 2020) أثناء ضبط التوصيلات المتعددة اللغات المدربة مسبقا يحسن فعالية التحويل عبر اللغات. ثانيا، للاستفادة الكاملة من مختلف تجزئة المدخلات المحتملة، نقترح تنظيم الكلمات الفرعية المتعددة للنظر (MVR)، وهي طريقة تطبق تناسق التنبؤ بين استخدام المدخلات التي يتم تخصيصها من خلال تجزئة المعيار والاحتمالية. النتائج على مرجع Xtreme متعدد اللغات (هو وآخرون، 2020) تظهر أن MVR يجلب تحسينات ثابتة تصل إلى 2.5 نقطة باستخدام خوارزميات تجزئة قياسية.
بايت زوج ترميز (BPE) هي خوارزمية في كل مكان في عملية تكييف الكلمات الفرعية لنماذج اللغة لأنها توفر فوائد متعددة. ومع ذلك، فإن هذه العملية تستند فقط إلى إحصاءات بيانات ما قبل التدريب، مما يجعل من الصعب على الممتلزمية أن تتعامل مع هجاء نادرة. من ناحية أخرى، على الرغم من أن طراز أخطاء إملائي، إلا أن نماذج على مستوى الطابع النقي غالبا ما تؤدي إلى تسلسل طويل غير معقول وجعل الأمر أكثر صعوبة في تعلم النموذج كلمات ذات معنى. لتخفيف هذه التحديات، نقترح وحدة الكلمات الفرعية القائمة على الطابع (Char2Subword) التي تتعلم جدول تضمين الكلمات الفرعية في النماذج المدربة مسبقا مثل Bert. تقوم وحدة char2subword الخاصة بنا بإنشاء تمثيلات من الشخصيات من المفردات الفرعية، ويمكن استخدامها كإستبدال قطرة من جدول تضمين الكلمات الفرعية. الوحدة النمطية قوية لتعديلات مستوى الأحرف مثل أخطاء إملائي، انعطاف Word، غلاف، علامات الترقيم. نحن ندمجها أكثر مع بيرت من خلال التدريب المسبق مع الحفاظ على معلمات محول بيرت الثابتة - وبالتالي توفير طريقة عملية. أخيرا، نوضح أن دمج الوحدة النمطية الخاصة بنا إلى mbert يحسن بشكل كبير الأداء في معيار التقرير اللغوي لوسائل الإعلام الاجتماعية (LINCE).
القدرة على توليد محاذاة كلمة دقيقة مفيدة لمجموعة متنوعة من المهام.في حين أن محاذاة الكلمة الإحصائية يمكن أن تعمل بشكل جيد، خاصة عندما تكون بيانات التدريب الموازية وفيرة، فقد تبين مؤخرا نماذج تضمين متعددة اللغات نتائج جيدة في سيناريوهات غير مخالفة.نقي م طريقة فرقة لمحاذاة الكلمات على أربع أزواج لغوية وإظهار ذلك من خلال الجمع بين أدوات متعددة، والاستفادة من نهجها المختلفة، يمكن إجراء مكاسب كبيرة.هذا يحمل للإعدادات التي تتراوح من الموارد المنخفضة جدا إلى المورد العالي.علاوة على ذلك، نقدم اختبار محاذاة ذهبي جديد مجموعة أيسلندية وأداة جديدة سهلة الاستخدام لإنشاء محاذاة Word يدوية.
أصبح تجزئة الكلمات الفرعية التي يحركها البيانات هي الاستراتيجية الافتراضية للترجمة الآلية المفتوحة ومهام NLP الأخرى، ولكنها قد لا تكون عامة بما فيه الكفاية للتعلم الأمثل للمورفولوجيا غير الملعوسة.نقوم بتصميم مجموعة اختبار لتقييم استراتيجيات التجزئة ع لى أنواع مختلفة من الظواهر المورفولوجية في بيئة ذات نصف اصطناعية محددة.في تجاربنا، قارنا نماذج الترجمة الآلية التي تم تدريبها على مستوى الكلمة الفرعية ومستوى الشخصيات ترجمة هذه الظواهر المورفولوجية.نجد أن التعلم لتحليل وإنشاء تمثيلات سطحية معقد مورفولوجية لا تزال تحديا، خاصة بالنسبة للظواهر المورفولوجية غير الملحة مثل الإدراج أو الحروف الحرارية وانسحاب الكلمة النادرة.استنادا إلى نتائجنا، نوصي باختبار استراتيجيات تمثيل نصية جديدة على مجموعة من اللغات المتنوعة من الناحية النموذجية لتقليل خطر اعتماد استراتيجية عيوب عن غير قصد بعض اللغات.
أهداف المحاذاة الكامنة مثل CTC والفأس تحسن بشكل كبير نماذج الترجمة الآلية غير التلقائي.هل يمكنهم تحسين النماذج التلقائية أيضا؟نستكشف إمكانية تدريب نماذج الترجمة الآلية ذات الجهاز التلقائي بأهداف محاذاة كامنة، ومراقبة ذلك، في الممارسة العملية، ينتج هذ ا النهج نماذج التدهور.نحن نقدم شرحا نظريا لهذه النتائج التجريبية، وأثبت أن أهداف المحاذاة الكامنة غير متوافقة مع إجبار المعلم.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا