ترغب بنشر مسار تعليمي؟ اضغط هنا

جنون G: جيل محول متعدد اللغات للتحويل الفعال عبر اللغات

MAD-G: Multilingual Adapter Generation for Efficient Cross-Lingual Transfer

261   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لقد ظهرت وحدات محول كوسيلة فعالة من المعلمات لتخصص التشفير المسبق على المجالات الجديدة. استفادت محولات متعددة اللغات بشكل كبير (MMTS) بشكل خاص من التدريب الإضافي للمحولات الخاصة باللغة. ومع ذلك، فإن هذا النهج ليس قابلا للتطبيق بالنسبة للغالبية العظمى من اللغات، بسبب القيود في حجم الشقوق أو حساب الميزانيات. في هذا العمل، نقترح جنون G (جيل محول متعدد اللغات)، الذي يولد محولات لغة محلية من تمثيلات اللغة بناء على الميزات النموذجية. على عكس العمل السابق، يتيح نهجنا المجنون بوقتنا وفعال الفضاء (1) تبادل المعرفة اللغوية عبر اللغات و (2) استنتاج صفرية عن طريق توليد محولات لغة للغات غير المرئية. نحن نقيم بدقة جنون G في النقل الصفر - نقل عبر اللغات على علامة جزء من الكلام، وتحليل التبعية، والاعتراف كيان المسمى. أثناء تقديم (1) تحسين كفاءة ضبط الدقيقة (1) من خلال عامل حوالي 50 في تجاربنا)، (2) ميزانية معلمة أصغر، و (3) زيادة تغطية اللغة، لا تزال جنون جي تنافسية مع أساليب أكثر تكلفة للغة تدريب محول محدد في جميع اللوحة. علاوة على ذلك، فإنه يوفر فوائد كبيرة لغات الموارد المنخفضة، لا سيما في مهمة NER في لغات أفريقية منخفضة الموارد. أخيرا، نوضح أن أداء نقل جنون جي يمكن تحسينه عبر: (1) التدريب متعدد المصادر، أي، من خلال توليد ومجتمعة محولات لغات متعددة مع بيانات التدريب الخاصة بمهام المهام المتاحة؛ و (2) عن طريق مزيد من ضبط محولات جنون G للغات ولغات مع بيانات أحادية الأونلينغ.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

حققت المحولات التي تم تدريبها مسبقا على شركة متعددة اللغات، مثل MBERT و XLM-ROBERTA، قدرات نقل متبقية مثيرة للإعجاب. في إعداد نقل الطلقة الصفرية، يتم استخدام بيانات التدريب الإنجليزية فقط، ويتم تقييم النموذج الدقيق على لغة مستهدفة أخرى. على الرغم من أن هذا يعمل بشكل جيد بشكل مدهش، فقد تمت ملاحظة تباين كبير في الأداء اللغوي المستهدف بين مختلف عمليات التشغيل الدقيقة، وفي إعداد الطلقة الصفرية، لا توجد بيانات تطوير اللغة المستهدفة متاحة للتحديد بين نماذج متعددة ذات الضبط. اعتمد العمل المسبق على بيانات Dev الإنجليزية لتحديد بين النماذج التي تم ضبطها بشكل جيد مع معدلات التعلم المختلفة وعدد الخطوات وغيرها من أنواع التشعبات، والتي غالبا ما تؤدي إلى اختيارات فرعية نفسها. في هذه الورقة، نوضح أنه من الممكن تحديد نماذج أفضل باستمرار عند توفر كميات صغيرة من البيانات المشروحة بلغات محورية إضافية. نقترح نهجا للتعلم الآلي للاختيار النموذجي الذي يستخدم التمثيلات الداخلية للأنظمة ذات الطراز الدقيق للتنبؤ بقدراتها المتبادلة. في تجارب شاملة، نجد أن هذه الطريقة تختار باستمرار نماذج أفضل من بيانات التحقق من صحة اللغة الإنجليزية عبر عشرين لغة (بما في ذلك 8 لغات منخفضة الموارد)، وغالبا ما تحقق النتائج التي تتميز باختيار نموذج باستخدام بيانات تطوير اللغة المستهدفة.
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية، نوضح تجريبيا أن الأداء يتحلل بشكل كبير عند الاستعلام عن نموذج الفيديو النصي متعدد اللغات مع جمل غير إنجليزية. لمعالجة هذه المشكلة، نقدم استراتيجية متعددة الاستخدامات متعددة الاستخدامات متعددة اللغات، وجمع مجموعة بيانات تعليمية متعددة اللغات متعددة اللغات (متعدد HOWTO100M) للتدريب المسبق. تشير التجارب في VTT إلى أن طريقتنا تعمل بشكل كبير على تحسين البحث عن الفيديو في اللغات غير الإنجليزية دون شروح إضافية. علاوة على ذلك، عند توفر التعليقات التوضيحية متعددة اللغات، تتفوقت طريقة لدينا على خطوط الأساس الحديثة بواسطة هامش كبير في البحث عن نص متعدد اللغات للفيديو على VTT و Vatex؛ وكذلك في البحث النص متعدد اللغات إلى الصورة على multi30k. يتوفر نموذجنا ومتعدد HOWTO100M على http://github.com/berniebear/multi-ht100m.
يهدف سؤال متعدد اللغات، الرد على الرسم البياني للمعرفة (KGQA) إلى استخلاص إجابات من الرسم البياني المعرفي (KG) للأسئلة بلغات متعددة. لتكون قابلة للتطبيق على نطاق واسع، نركز على إعداد نقل الطلقة الصفرية. هذا هو، يمكننا فقط الوصول إلى البيانات التدريبي ة فقط بلغة موارد عالية، بينما تحتاج إلى الإجابة على أسئلة متعددة اللغات دون أي بيانات معدنية باللغات المستهدفة. يتم تشغيل نهج مباشر إلى نماذج متعددة اللغات المدربة مسبقا (على سبيل المثال، MBERT) للنقل عبر اللغات، ولكن هناك فجوة كبيرة من الأداء KGQA بين المصدر واللغات المستهدفة. في هذه الورقة، نستمسى تحريض معجم ثنائي اللغة دون مقابل (BLI) لخريطة الأسئلة التدريبية في لغة المصدر في تلك الموجودة في اللغة المستهدفة مثل بيانات التدريب المعزز، والتي تتحل إلى عدم تناسق اللغة بين التدريب والاستدلال. علاوة على ذلك، نقترح استراتيجية تعليمية عدائية لتخفيف اضطراب بناء الجملة في البيانات المعززة، مما يجعل النموذج يميل إلى كل من اللغة والبنيات الاستقلال. وبالتالي، فإن نموذجنا يضيق الفجوة في تحويل صفرية عبر اللغات. التجارب على مجموعة بيانات KGQA متعددة اللغات مع 11 لغة موارد صفرية تحقق من فعاليتها.
يركز العمل السابق بشكل رئيسي على تحسين التحويل عبر اللغات لمهام NLU مع ترميز مسبب متعدد اللغات (MPE)، أو تحسين الأداء على الترجمة الآلية الخاضعة للإشراف مع بيرت. ومع ذلك، فقد تم استكشافه أنه ما إذا كان يمكن أن يساعد MPE في تسهيل عملية النقل عبر اللغا ت لنموذج NMT. في هذه الورقة، نركز على مهمة نقل صفرية عبر اللغات في NMT. في هذه المهمة، يتم تدريب نموذج NMT مع مجموعة بيانات متوازية من زوج لغة واحدة فقط و MPE MPE على الرف، ثم يتم اختباره مباشرة على أزواج لغة الطلقة الصفرية. نقترح Sixt، نموذج بسيط ولكنه فعال لهذه المهمة. يستمتع Sixt بتطوير MPE بجدول تدريبي من مرحلتين ويحصل على مزيد من التحسن في موضع ترميز مفكيك ومكتشف محسن على القدرات. باستخدام هذه الطريقة، يتفوق Sixt بشكل كبير بشكل كبير على MBART، وهو نموذج فك تشفير التركيب متعدد اللغات مسبقا مصممة بشكل صريح ل NMT، مع تحسين متوسط ​​7.1 بلو على مجموعات اختبار صفرية عبر الإنترنت عبر 14 لغة مصدر. علاوة على ذلك، مع وجود بيانات تدريبية وتدريبية أقل بكثير من البيانات، يحقق نموذجنا أداء أفضل في 15 مجموعة اختبار من أي إلى الإنجليزية من Criss و M2M-100، خطين قويين متعدد اللغات NMT.
تم الآن إنشاء أن نماذج اللغة العصبية الحديثة يمكن تدريبها بنجاح على لغات متعددة في وقت واحد دون تغييرات على الهندسة المعمارية الأساسية، وتوفير طريقة سهلة لتكييف مجموعة متنوعة من نماذج NLP لغات الموارد المنخفضة.ولكن ما نوع المعرفة المشتركة حقا بين الل غات داخل هذه النماذج؟هل يؤدي التدريب المتعدد اللغات في الغالب إلى محاذاة مساحات التمثيل المعجمية أو هل تمكن أيضا تقاسم المعرفة النحوية بحتة؟في هذه الورقة، نشرج أشكال مختلفة من التحويل المتبادل والبحث عن عواملها الأكثر تحديدا، باستخدام مجموعة متنوعة من النماذج والمهام التحقيق.نجد أن تعريض LMS لدينا بلغة ذات صلة لا تؤدي دائما إلى زيادة المعرفة النحوية في اللغة المستهدفة، وأن الظروف المثلى للنقل الدلالي المعجمي قد لا تكون الأمثل للتحويل النحوي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا