ترغب بنشر مسار تعليمي؟ اضغط هنا

يمكن أن تساعد ترابط اللغة والتقارب المعجمي في تحسين NMT متعددة اللغات: IITBOMBAY @ multiindicnmt Wat2021

Language Relatedness and Lexical Closeness can help Improve Multilingual NMT: IITBombay@MultiIndicNMT WAT2021

252   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حققت الترجمة الآلية العصبية متعددة اللغات أداء ملحوظا من خلال تدريب نموذج ترجمة واحدة لغات متعددة.تصف هذه الورقة التقديم الخاص بنا (معرف الفريق: CFILT-IITB) لمكتب Multiindicmt: مهمة متعددة اللغات اللغوية في WAT 2021. نقوم بتدريب أنظمة NMT متعددة اللغات من خلال تقاسم المعلمات التشفير والكشف مع تضمين اللغة المرتبطة بكل رمزية في كل من التشفير والكشف في كل من التشفير والكشف.علاوة على ذلك، نوضح استخدام الترجمة (تحويل البرنامج النصي) لغارات الجهاز في تقليل الفجوة المعجمية لتدريب نظام NMT متعدد اللغات.علاوة على ذلك، نوضح التحسن في الأداء من خلال تدريب نظام NMT متعدد اللغات باستخدام لغات الأسرة نفسها، أي لغة ذات صلة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقوم الترجمة العصبية متعددة اللغات (MNMT) بتدريب نموذج NMT واحد يدعم الترجمة بين لغات متعددة، بدلا من تدريب نماذج منفصلة لغات مختلفة. تعلم نموذج واحد يمكن أن يعزز الترجمة المنخفضة الموارد من خلال الاستفادة من البيانات من لغات متعددة. ومع ذلك، فإن أدا ء نموذج MNMT يعتمد اعتمادا كبيرا على نوع اللغات المستخدمة في التدريب، حيث أن نقل المعرفة من مجموعة متنوعة من اللغات تتحلل أداء الترجمة بسبب النقل السلبي. في هذه الورقة، نقترح مقاربة تقطير المعرفة التسلسل الهرمية (HKD) ل MNMT والتي تتمتع بالجماعات اللغوية التي تم إنشاؤها وفقا للميزات النموذجية والهلوجين من اللغات للتغلب على مسألة النقل السلبي. ينشئ HKD مجموعة من نماذج مساعد المعلم متعددة اللغات عبر آلية تقطير المعرفة الانتقائية تعتمد على مجموعات اللغات، ثم قم بالتقطير النموذج النهائي متعدد اللغات من المساعدين بطريقة تكيف. النتائج التجريبية المشتقة من مجموعة بيانات TED مع 53 لغة توضح فعالية نهجنا في تجنب تأثير النقل السلبي في MNMT، مما يؤدي إلى أداء ترجمة محسنة (حوالي 1 درجة بلو في المتوسط) مقارنة مع خطوط الأساس القوية.
يتطلب التعرف على الكيان المسمى MultiModal (MNER) سد الفجوة بين فهم اللغة والسياق المرئي.في حين أن العديد من التقنيات العصبية متعددة الوسائط قد تم اقتراح دمج الصور في مهمة MNER، فإن قدرة النموذج على الاستفادة من التفاعلات متعددة الوسائط لا تزال مفهومة سيئة.في هذا العمل، نقوم بإجراء تحليلات متعمقة من تقنيات الانصهار متعددة الوسائط المتعددة من وجهات نظر مختلفة ووصف السيناريوهات حيث لا تؤدي إضافة معلومات من الصورة دائما إلى زيادة الأداء.ندرس أيضا استخدام التسميات التوضيحية كوسيلة لإثراء السياق ل MNER.تعرض التجارب في ثلاث مجموعات من المنصات الاجتماعية الشعبية عنق الزجاجة من النماذج متعددة الوسائط الحالية والحالات التي يستخدمها المساميرات مفيدة.
أهداف المحاذاة الكامنة مثل CTC والفأس تحسن بشكل كبير نماذج الترجمة الآلية غير التلقائي.هل يمكنهم تحسين النماذج التلقائية أيضا؟نستكشف إمكانية تدريب نماذج الترجمة الآلية ذات الجهاز التلقائي بأهداف محاذاة كامنة، ومراقبة ذلك، في الممارسة العملية، ينتج هذ ا النهج نماذج التدهور.نحن نقدم شرحا نظريا لهذه النتائج التجريبية، وأثبت أن أهداف المحاذاة الكامنة غير متوافقة مع إجبار المعلم.
تم إثبات التحسينات الأخيرة المثيرة للإعجاب في NLP، على أساس نجاح نماذج اللغة العصبية السياقية، في معظمها على معظم زوجين من اللغات عالية الموارد. بناء لغة البناء، وبشكل أعم، لا تزال أنظمة NLP للغات غير الموحدة والموارد منخفضة مهمة صعبة. في هذا العمل، نحن fo- cus على اللغة العربية العامية من الشمال الأفريقي العربية المكتوبة باستخدام امتداد من البرنامج النصي اللاتيني، يسمى Narabizi، في الغالب على وسائل التواصل الاجتماعي والرسائل. في هذا السيناريو المنخفض للموارد مع عرض البيانات مستوى كبير من التباين، نقوم بمقارنة أداء المصب لنموذج لغة قائمة على الطابع على وضع علامات جزء من الكلام والاعتماد على نماذج أحادية اللغات وغير اللغوية. نظرا لأن نموذجا مقرا له على الطابع المدرب على جمل 99 ألفا فقط من Narabizi ويتم تغريمه على خرق صغير من هذه اللغة يؤدي إلى أداء قريبة من تلك التي تم الحصول عليها مع نفس الهندسة المعمارية المدربة مسبقا على نماذج كبيرة متعددة اللغات وأنتجة. تؤكد هذه النتائج على مجموعة بيانات أكبر بكثير من المحتوى الناتج عن المستخدم الفرنسي الصاخب، نجح بأن هذه النماذج اللغوية القائمة على الأحرف يمكن أن تكون أصول ل NLP في مجموعة التباين المنخفضة واللغة العالية.
ما مدى صعوبة ذلك بالنسبة لمتعلمي اللغة الإنجليزية (ESL) للغة الإنجليزية (ESL) قراءة النصوص الإنجليزية الصاخبة؟هل يحتاج المتعلمون ESL إلى التطبيع المعجمي لقراءة النصوص الإنجليزية الصاخبة؟قد تؤثر هذه الأسئلة أيضا على تكوين المجتمع على مواقع الشبكات الا جتماعية حيث يمكن أن تعزى الاختلافات إلى متعلمي ESL ومكبرات الصوت الإنجليزية الأصلية.ومع ذلك، فقد عالجت بعض الدراسات هذه الأسئلة.تحقيقا لهذه الغاية، بنينا مقيمين دقيقين للغاية لقراءة القراءة لتقييم قابلية قراءة النصوص للمتعلمين ESL.ثم طبقنا هذا المقيمين للنصوص الإنجليزية الصاخبة لمزيد من تقييم قابلية قراءة النصوص.أظهرت النتائج التجريبية أنه على الرغم من أن متعلمي ESL على المستوى المتوسطين يمكنهم قراءة معظم النصوص الإنجليزية الصاخبة في المقام الأول، فإن التطبيع المعجمي يحسن بشكل كبير من قراءة النصوص الإنجليزية الصاخبة للمتعلمين ESL.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا