ترغب بنشر مسار تعليمي؟ اضغط هنا

ما مدى فائدة استراتيجيات تجزئة الكلمات الفرعية لترجمة التشكل غير الملائم؟

How Suitable Are Subword Segmentation Strategies for Translating Non-Concatenative Morphology?

309   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبح تجزئة الكلمات الفرعية التي يحركها البيانات هي الاستراتيجية الافتراضية للترجمة الآلية المفتوحة ومهام NLP الأخرى، ولكنها قد لا تكون عامة بما فيه الكفاية للتعلم الأمثل للمورفولوجيا غير الملعوسة.نقوم بتصميم مجموعة اختبار لتقييم استراتيجيات التجزئة على أنواع مختلفة من الظواهر المورفولوجية في بيئة ذات نصف اصطناعية محددة.في تجاربنا، قارنا نماذج الترجمة الآلية التي تم تدريبها على مستوى الكلمة الفرعية ومستوى الشخصيات ترجمة هذه الظواهر المورفولوجية.نجد أن التعلم لتحليل وإنشاء تمثيلات سطحية معقد مورفولوجية لا تزال تحديا، خاصة بالنسبة للظواهر المورفولوجية غير الملحة مثل الإدراج أو الحروف الحرارية وانسحاب الكلمة النادرة.استنادا إلى نتائجنا، نوصي باختبار استراتيجيات تمثيل نصية جديدة على مجموعة من اللغات المتنوعة من الناحية النموذجية لتقليل خطر اعتماد استراتيجية عيوب عن غير قصد بعض اللغات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعتمد تمثيلات إعادة ربط متعددة اللغات عموما على خوارزميات تجزئة الكلمات الفرعية لإنشاء مفردات مشتركة متعددة اللغات. ومع ذلك، غالبا ما تؤدي خوارزميات المثيرة العادية في كثير من الأحيان إلى تجزئة فرعية مثالية، خاصة للغات ذات كميات محدودة من البيانات. ف ي هذه الورقة، نأخذ خطوتين رئيسيتين نحو تخفيف هذه المشكلة. أولا، نوضح تجريبيا أن تطبيق طرق تنظيم الكلمات الفرعية الحالية (KUDO، 2018؛ ProviLkov et al.، 2020)، 2020) أثناء ضبط التوصيلات المتعددة اللغات المدربة مسبقا يحسن فعالية التحويل عبر اللغات. ثانيا، للاستفادة الكاملة من مختلف تجزئة المدخلات المحتملة، نقترح تنظيم الكلمات الفرعية المتعددة للنظر (MVR)، وهي طريقة تطبق تناسق التنبؤ بين استخدام المدخلات التي يتم تخصيصها من خلال تجزئة المعيار والاحتمالية. النتائج على مرجع Xtreme متعدد اللغات (هو وآخرون، 2020) تظهر أن MVR يجلب تحسينات ثابتة تصل إلى 2.5 نقطة باستخدام خوارزميات تجزئة قياسية.
تقدم الورقة موردا جديدا ورمائيا، لدراسة مورفولوجيا تكوين الكلمة السويدية الحديثة.تم تقسيم ما يقرب من 16.000 مادة معجمية في المورد بشكل يدويا إلى مورفيمز تشكيل Word، ومسمى لفئاتها، مثل البادئات والمعقاص والجذور، وما إلى ذلك آليات تكوين كلمة، مثل الاشت قاق والمضاعف قد ارتبطت بكل عنصرفي القائمة.توضح المقالة اختيار العناصر التوضيحي اليدوي ومبادئ التوضيحية، والتقارير المتعلقة بموثوقية التوضيحية اليدوية، ويعرض الأدوات والموارد وبعض الإحصاءات الأولى.بالنظر إلى طبيعة الموارد الخاصة بالموارد، من الممكن استخدامه للدراسات التجريبية وكذلك تطوير خوارزميات مدركة في مجال اللغويسيا تجزئة مورفيم ووضع العلامات (نهج الكلمات الفرعية الإحصائية CF).سيتم توفير المورد بحرية متاحة.
تحدد محاذاة Word المراسلات المتعلقة بالمراسلات بين الكلمات في زوج جملة متوازية وتستخدم ومثالا وتدريب الترجمة ذات الجهاز الإحصائي وتعلم قواميس ثنائية اللغة أو لأداء تقدير الجودة.أصبح Totkenization في الكلمات الفرعية خطوة مسبقة مسبق لمعاييرها لعدد كبير من التطبيقات وخاصة أنظمة الترجمة الآلية المفتوحة لمفردات الأحدث.في هذه الورقة، ندرس تماما كيف تتفاعل هذه الخطوة المعالجة مسبقا مع مهمة محاذاة الكلمة واقتراح عدة استراتيجيات التكوين للحصول على كورسا موازية مجزأة جيدا.باستخدام هذه التقنيات الجديدة وتمكنا من تحسين نماذج المحاذاة القائمة على الكلمات الأساسية لستة أزواج لغوية.
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم فردات الدوافع اللغوية (LMVR) مقابل الجملة الأكثر استخداما (SP) لمهمة الترجمة من اللغة الإنجليزية إلى أربعة لغات Dravidian مختلفة.بالإضافة إلى ذلك، نحقق في حجم المفردات الفرعية المثلى لكل لغة.نجد أن SP هو الخيار الأكثر شمولا للتجزئة، وأن أحجام القاموس الأكبر تؤدي إلى جودة الترجمة الأعلى.
بايت زوج ترميز (BPE) هي خوارزمية في كل مكان في عملية تكييف الكلمات الفرعية لنماذج اللغة لأنها توفر فوائد متعددة. ومع ذلك، فإن هذه العملية تستند فقط إلى إحصاءات بيانات ما قبل التدريب، مما يجعل من الصعب على الممتلزمية أن تتعامل مع هجاء نادرة. من ناحية أخرى، على الرغم من أن طراز أخطاء إملائي، إلا أن نماذج على مستوى الطابع النقي غالبا ما تؤدي إلى تسلسل طويل غير معقول وجعل الأمر أكثر صعوبة في تعلم النموذج كلمات ذات معنى. لتخفيف هذه التحديات، نقترح وحدة الكلمات الفرعية القائمة على الطابع (Char2Subword) التي تتعلم جدول تضمين الكلمات الفرعية في النماذج المدربة مسبقا مثل Bert. تقوم وحدة char2subword الخاصة بنا بإنشاء تمثيلات من الشخصيات من المفردات الفرعية، ويمكن استخدامها كإستبدال قطرة من جدول تضمين الكلمات الفرعية. الوحدة النمطية قوية لتعديلات مستوى الأحرف مثل أخطاء إملائي، انعطاف Word، غلاف، علامات الترقيم. نحن ندمجها أكثر مع بيرت من خلال التدريب المسبق مع الحفاظ على معلمات محول بيرت الثابتة - وبالتالي توفير طريقة عملية. أخيرا، نوضح أن دمج الوحدة النمطية الخاصة بنا إلى mbert يحسن بشكل كبير الأداء في معيار التقرير اللغوي لوسائل الإعلام الاجتماعية (LINCE).

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا