ترغب بنشر مسار تعليمي؟ اضغط هنا

استراتيجيات تدريب الانعكاسات المورفولوجية متعددة اللغات

Training Strategies for Neural Multilingual Morphological Inflection

157   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة تقديم فريق Guclasp ل Sigmorphon 2021 المهمة المشتركة بشأن التعميم في توليد الانعطاف المورفولوجي.نقوم بتطوير نموذج متعدد اللغات للانضباط المورفولوجي والتركيز بشكل أساسي على تحسين النموذج باستخدام استراتيجيات تدريب مختلفة لتحسين الدقة والتعميم عبر اللغات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

عادة ما يتم تكليف الترجمة الآلية العصبية متعددة الموارد (MNMT) بتحسين أداء الترجمة على أزواج لغة واحدة أو أكثر بمساعدة أزواج لغة الموارد عالية الموارد.في هذه الورقة، نقترح اثنين من المناهج البحث البسيطة القائمة على البحث - طلب بيانات التدريب المتعدد اللغات - والتي تساعد على تحسين أداء الترجمة بالاقتران مع التقنيات الحالية مثل الضبط الدقيق.بالإضافة إلى ذلك، نحاول تعلم منهجا من المناهج الدراسية من MNMT من الصفر بالاشتراك مع تدريب نظام الترجمة باستخدام قطاع الطرق متعددة الذراع السياقية.نعرض على مجموعة بيانات الترجمة المنخفضة من Flores التي يمكن أن توفر هذه المناهج المستفادة نقاطا أفضل للضبط وتحسين الأداء العام لنظام الترجمة.
تعلم نموذج الترجمة متعددة اللغات ومتعدد اللغات يمثل تحديا لأن البيانات غير المتجانسة والمخطورة تجعل النموذج تتلاقص بشكل غير متسق على مختلف كوربورا في العالم الحقيقي. تتمثل هذه الممارسة الشائعة في ضبط حصة كل جثة في التدريب، بحيث يمكن أن تستفيد عملية ا لتعلم الحالات المتوازنة والموارد المنخفضة من الموارد العالية. ومع ذلك، عادة ما تعتمد أساليب موازنة التلقائي عادة على الخصائص داخل ومشتركة بين البيانات، والتي عادة ما تكون غير مرغقة أو تتطلب من الشاورات البشرية. في هذا العمل، نقترح نهجا، مواد متعددة، أن ضبط استخدام بيانات التدريب بشكل حيوي استنادا إلى عدم اليقين في النموذج على مجموعة صغيرة من البيانات النظيفة الموثوقة للترجمة متعددة الكائنات. نحن تجارب مع فئتين من تدابير عدم اليقين في تعدد اللغات (16 لغة مع 4 إعدادات) وإعدادات متعددة النجانات (4 للمجال في المجال و 2 للخارج على الترجمة الإنجليزية-الألمانية) وإظهار نهجنا متعدد الاستخدامات بشكل كبير خطوط الأساس، بما في ذلك الاستراتيجيات الثابتة والديناميكية. نقوم بتحليل النقل عبر المجال وإظهار نقص الأساليب القائمة على الاستقرار والمشاكل.
Backtranslation هي تقنية شائعة للاستفادة من البيانات غير المسبقة في سيناريوهات الموارد المنخفضة في الترجمة الآلية.تنطبق الطريقة بشكل مباشر على توليد الانفعال المورفولوجي إذا كانت نماذج الكلمة غير المسبقة متوفرة.تقوم هذه الورقة بتقييم إمكانات خلفية ال انعطاف المورفولوجي باستخدام البيانات من ست لغات مع البيانات المسمى المسجلة من مورد Sigmorphon المشترك للبيانات والبيانات غير المسبقة من مصادر مختلفة.النتيجة الناتجة الأساسية هي أن Backtranslation يمكن أن تقدم تحسينات متواضعة في سيناريوهات الموارد المنخفضة، ولكن فقط إذا كانت البيانات غير المسبقة نظيفة للغاية وقد تم تصفيتها بنفس المعايير التوضيحية مثل البيانات المسمى.
نقدم تقديم BME لمهمة Sigmorphon 2021 0 الجزء 1، التعميم عبر المهمة المشتركة بين اللغات المتنوعة من الناحية النموذجية.نحن نستخدم نموذج فك تشفير LSTM مع ثلاثة خطوات التدريب المدرب لأول مرة على جميع اللغات، ثم ضبطها على كل عائلة لغة وأخيرا ضبطها على الل غات الفردية.نستخدم نوع مختلف من تقنية تكبير البيانات في الخطوتين الأولين.تفوق نظامنا على التقديم الآخر الوحيد.على الرغم من أنه لا يزال أسوأ من خط الأساس المحول الذي أصدره المنظمون، فإن نموذجنا أبسط وأن تقنياتنا تكبير البيانات تنطبق بسهولة على لغات جديدة.نقوم بإجراء دراسات الاجتثاث وإظهار أن تقنيات المعزز والخطوات التدريبية الثلاثة غالبا ما تساعد ولكن في بعض الأحيان يكون لها تأثير سلبي.رمز لدينا هو متاح علنا.
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية، نوضح تجريبيا أن الأداء يتحلل بشكل كبير عند الاستعلام عن نموذج الفيديو النصي متعدد اللغات مع جمل غير إنجليزية. لمعالجة هذه المشكلة، نقدم استراتيجية متعددة الاستخدامات متعددة الاستخدامات متعددة اللغات، وجمع مجموعة بيانات تعليمية متعددة اللغات متعددة اللغات (متعدد HOWTO100M) للتدريب المسبق. تشير التجارب في VTT إلى أن طريقتنا تعمل بشكل كبير على تحسين البحث عن الفيديو في اللغات غير الإنجليزية دون شروح إضافية. علاوة على ذلك، عند توفر التعليقات التوضيحية متعددة اللغات، تتفوقت طريقة لدينا على خطوط الأساس الحديثة بواسطة هامش كبير في البحث عن نص متعدد اللغات للفيديو على VTT و Vatex؛ وكذلك في البحث النص متعدد اللغات إلى الصورة على multi30k. يتوفر نموذجنا ومتعدد HOWTO100M على http://github.com/berniebear/multi-ht100m.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا