ترغب بنشر مسار تعليمي؟ اضغط هنا

تنظيم معلومات فيشر يحسن التعميم عبر اللغات

Regularising Fisher Information Improves Cross-lingual Generalisation

316   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تستخدم العديد من الأعمال الحديثة تنظيم التناسق "لتحسين تعميم النماذج المدربة مسبقا بشكل جيد، متعدد اللغات والإنجليزية فقط. هذه الأعمال تشجع النواتج النموذجية على أن تكون مشابهة بين الإصدار المضطربة والطبيعية من المدخلات، وعادة من خلال معاقبة اختلاف Kullback - Leibler (KL) بين توزيع الاحتمالية للنموذج المضطرب والطبيعي. نعتقد أن خسائر الاتساق قد تنظم ضمنا المشهد الخسارة. على وجه الخصوص، نبني على ما يكافؤ على العمل الذي ينظم ضمنيا أو بوضوح تنظيم أثر مصفوفة معلومات فيشر (FIM)، تضخيم التحيز الضمني ل SGD لتجنب الحفظ. تظهر نتائجنا الأولية من الناحية التجريبية وموضوعيا أن خسائر الاتساق مرتبطة بالفترة الفائضة، وإظهار أن الحد الأدنى المسطح الضمني بتتبع صغير من FIM يحسن الأداء عند ضبط نموذج متعدد اللغات على لغات إضافية. نحن نهدف إلى تأكيد هذه النتائج الأولية على مزيد من مجموعات البيانات، واستخدام رؤىنا لتطوير تقنيات منخفضة اللغات متعددة اللغات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذا العمل، نقدم إطارا نظريا للمعلومات يقوم بتصوير نموذج اللغة عبر اللغات قبل تعظيم المعلومات المتبادلة بين النصوص متعددة اللغات متعددة التحبيب.العرض الموحد يساعدنا على فهم الأساليب الموجودة بشكل أفضل لتعلم تمثيلات عبر اللغات.الأهم من ذلك، مستوحاة من الإطار، نقترح مهمة جديدة قبل التدريب على التعلم المتعاقل.على وجه التحديد، نعتبر زوج جملة ثنائية اللغة كأراضتين لنفس المعنى وتشجيع تمثيلاتها المشفرة أكثر مماثلة من الأمثلة السلبية.من خلال الاستفادة من كل من Corpora Monolingual والمتوازي، فإننا ندرب بشكل مشترك مهام ذريعة التحسين القدرة على التحويل المتبادلة للنماذج المدربة مسبقا.النتائج التجريبية على العديد من المعايير تظهر أن نهجنا يحقق أداء أفضل بكثير.تتوفر الكود والنماذج المدربة مسبقا في https://aka.ms/infoxlm.
تعرض نماذج اللغة متعددة اللغات أداء أفضل لبعض اللغات مقارنة بالآخرين (Singh et al.، 2019)، وعدد العديد من اللغات لا تستفيد من تقاسم متعدد اللغات على الإطلاق، من المفترض أن تكون نتيجة تجزئة متعددة اللغات (بيزال O وآخرون)2020).يستكشف هذا العمل فكرة تعل م نماذج اللغة متعددة اللغات بناء على تجميع شرائح أحادية الأونلينغ.نعرض تحسينات كبيرة على تجزئة وتدريب وتعدد اللغات القياسية عبر تسعة لغات بشأن مهمة الإجابة على سؤال، سواء في نظام نموذج صغير ونموذج حجم قاعدة بيرت.
تهدف الترجمة متعددة الوسائط (MMT) إلى تحسين أداء الترجمة من خلال دمج المعلومات المرئية. معظم الدراسات الاستفادة من المعلومات المرئية من خلال دمج ميزات الصورة العالمية كمدخل إضافي أو فك تشفير من خلال حضور المناطق المحلية ذات الصلة في الصورة. ومع ذلك، فإن هذا النوع من استخدام المعلومات المرئية يجعل من الصعب معرفة كيفية تساعد طريقة المرئية ولماذا يعمل. مستوحاة من نتائج (الاقتباس) التي تعد الكيانات أكثر تفكيا في الصورة، نقترح نهجا للتعلم الصريح عبر مستوى الكيانات يهدف إلى زيادة تمثيل الكيان. على وجه التحديد، يتم تأطير النهج كهجوم لإعادة الإعمار الذي يعيد إدخال المدخلات النصية الأصلية من المدخلات متعددة الوسائط يتم استبدال الكيانات بالكيانات بالميزات المرئية. بعد ذلك، يتم استخدام إطار عمل متعدد المهام في الجمع بين مهمة الترجمة ومهمة إعادة الإعمار للاستفادة الكاملة من تعلم تمثيل الكيان عبر الوسائط. تثبت التجارب الواسعة أن نهجنا يمكن أن يحقق أداء قابلا للمقارنة أو أفضل من النماذج الحديثة. علاوة على ذلك، يوضح تحليلنا المتعمق كيفية تحسين المعلومات المرئية الترجمة.
توفر Argeddings Word عبر اللغات طريقة للمعلومات التي سيتم نقلها بين اللغات.في هذه الورقة، نقيم امتدادا لنهج تدريب مشترك لتعلم التضامن المتبادل الذي يتضمن معلومات الفرعية أثناء التدريب.قد تكون هذه الطريقة مناسبة بشكل خاص لأنها لغات منخفضة الموارد ولغا ت غنية بالمظورة لأنه يمكن تدريبها على سورانيا أحادية الحجم متواضعة، وهي قادرة على تمثيل الكلمات الخارجية (OOVS).نحن نعتبر تحديي المعجم الثنائي اللغة، بما في ذلك التقييم يركز على OOVs.نجد أن هذه الطريقة تحقق تحسينات حول النهج السابقة، لا سيما بالنسبة إلى OOVS.
حققت المحولات التي تم تدريبها مسبقا على شركة متعددة اللغات، مثل MBERT و XLM-ROBERTA، قدرات نقل متبقية مثيرة للإعجاب. في إعداد نقل الطلقة الصفرية، يتم استخدام بيانات التدريب الإنجليزية فقط، ويتم تقييم النموذج الدقيق على لغة مستهدفة أخرى. على الرغم من أن هذا يعمل بشكل جيد بشكل مدهش، فقد تمت ملاحظة تباين كبير في الأداء اللغوي المستهدف بين مختلف عمليات التشغيل الدقيقة، وفي إعداد الطلقة الصفرية، لا توجد بيانات تطوير اللغة المستهدفة متاحة للتحديد بين نماذج متعددة ذات الضبط. اعتمد العمل المسبق على بيانات Dev الإنجليزية لتحديد بين النماذج التي تم ضبطها بشكل جيد مع معدلات التعلم المختلفة وعدد الخطوات وغيرها من أنواع التشعبات، والتي غالبا ما تؤدي إلى اختيارات فرعية نفسها. في هذه الورقة، نوضح أنه من الممكن تحديد نماذج أفضل باستمرار عند توفر كميات صغيرة من البيانات المشروحة بلغات محورية إضافية. نقترح نهجا للتعلم الآلي للاختيار النموذجي الذي يستخدم التمثيلات الداخلية للأنظمة ذات الطراز الدقيق للتنبؤ بقدراتها المتبادلة. في تجارب شاملة، نجد أن هذه الطريقة تختار باستمرار نماذج أفضل من بيانات التحقق من صحة اللغة الإنجليزية عبر عشرين لغة (بما في ذلك 8 لغات منخفضة الموارد)، وغالبا ما تحقق النتائج التي تتميز باختيار نموذج باستخدام بيانات تطوير اللغة المستهدفة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا