ترغب بنشر مسار تعليمي؟ اضغط هنا

INFOXLM: إطار معلومات نظرية لنموذج اللغة عبر اللغات قبل التدريب

InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language Model Pre-Training

210   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذا العمل، نقدم إطارا نظريا للمعلومات يقوم بتصوير نموذج اللغة عبر اللغات قبل تعظيم المعلومات المتبادلة بين النصوص متعددة اللغات متعددة التحبيب.العرض الموحد يساعدنا على فهم الأساليب الموجودة بشكل أفضل لتعلم تمثيلات عبر اللغات.الأهم من ذلك، مستوحاة من الإطار، نقترح مهمة جديدة قبل التدريب على التعلم المتعاقل.على وجه التحديد، نعتبر زوج جملة ثنائية اللغة كأراضتين لنفس المعنى وتشجيع تمثيلاتها المشفرة أكثر مماثلة من الأمثلة السلبية.من خلال الاستفادة من كل من Corpora Monolingual والمتوازي، فإننا ندرب بشكل مشترك مهام ذريعة التحسين القدرة على التحويل المتبادلة للنماذج المدربة مسبقا.النتائج التجريبية على العديد من المعايير تظهر أن نهجنا يحقق أداء أفضل بكثير.تتوفر الكود والنماذج المدربة مسبقا في https://aka.ms/infoxlm.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

بالمقارنة مع نماذج أحادية الأجل، تتطلب النماذج عبر اللغات عادة مفردات أكثر تعبيرية لتمثيل جميع اللغات بشكل كاف.نجد أن العديد من اللغات ممثلة تمثيلا ناقصا في نماذج اللغات الصليب الأخيرة بسبب قدرة المفردات المحدودة.تحقيقا لهذه الغاية، نقترح خوارزمية VO CAP لتحديد سعة المفردات المطلوبة لكل لغة.ومع ذلك، فإن زيادة حجم المفردات يبطئ بشكل كبير بسرعة ما قبل التدريب.من أجل معالجة المشكلات، نقترح أخذ العينات المستهدفة المستهدفة K-NN لتسريع SoftMax باهظة الثمن.تبين تجاربنا أن المفردات المتعددة اللغات المستفادة مع فوائد VOCAP نموذج اللغة المتبادلة قبل التدريب مسبقا.علاوة على ذلك، فإن أخذ العينات المستهدفة المستندة إلى K-NN تخفف الآثار الجانبية لزيادة حجم المفردات مع تحقيق أداء مماثل وسرعة ما قبل التدريب الأسرع.الرمز والمفردات متعددة اللغات المحددة متوفرة في https://github.com/bozheng-hit/vocapxlm.
pimentel et al. (2020) تم تحليلها مؤخرا التحقيق من منظور نظرية المعلومات. يجادلون بأن التحقيق يجب أن ينظر إليه على أنه يقترب المعلومات المتبادلة. هذا أدى إلى الاستنتاج دون المستوى إلى حد ما أن تمثل التمثيلات نفسها بالضبط نفس المعلومات حول المهمة المس تهدفة كجمل أصلية. ومع ذلك، فإن المعلومات المتبادلة تفترض أن توزيع الاحتمالات الحقيقي لزوج من المتغيرات العشوائية معروفة، مما يؤدي إلى نتائج دون المستوى في الإعدادات التي لا يكون فيها. تقترح هذه الورقة إطارا جديدا لقياس ما نقوم بمصطلح معلومات البايز المتبادلة، والتي تحلل المعلومات من منظور عملاء البيئة --- السماح بنتائج أكثر بديهية في السيناريوهات مع البيانات المحدودة. على سبيل المثال، تحت Bayesian MI، لدينا أن البيانات يمكن أن تضيف معلومات، ومعالجة يمكن أن تساعد، والمعلومات يمكن أن تؤذي، مما يجعلها أكثر بديهية لتطبيقات التعلم الآلي. أخيرا، نطبق إطار عملنا على التحقيق حيث نعتقد أن المعلومات المتبادلة بايزي تعمل بشكل طبيعي بسهولة سهولة الاستخراج من خلال الحد الصريح لمعرفة الخلفية المتاحة لحل المهمة.
حققت نماذج متعددة اللغات المدربة مسبقا أداء ملحوظا على تعلم التحويل عبر اللغات.تم تدريب بعض النماذج متعددة اللغات مثل Mbert، مدربة مسبقا على Corpora غير المسبق، وبالتالي لا يمكن تضمين تضمينات لغات مختلفة في النماذج بشكل جيد للغاية.في هذه الورقة، نهدف إلى تحسين أداء نقل اللغات المتبادل الصفر عن طريق اقتراح مهمة تدريبية مسبقا تسمى نموذج محاذاة Word-Exchange (Weal)، والذي يستخدم معلومات المحاذاة الإحصائية كمعرفة مسبقة لتوجيه الكلمة عبر اللغاتتنبؤ.نحن نقيم نموذجنا في مهمة مهام الفهم لقراءة الجهاز متعدد اللغات ومهمة واجهة اللغة الطبيعية XNLI.تظهر النتائج أن Weam يمكن أن يحسن بشكل كبير من الأداء الصفر بالرصاص.
يعمل العمل المسبق على جيل البيانات إلى النص، ومهمة تحويل الكلام الرسم البياني (KG) ثلاث مرات إلى نص طبيعي، يركز على مجموعات البيانات القياسية الخاصة بالمجال. ومع ذلك، في هذه الورقة، فإننا ننفذنا اللغة الإنجليزية بأكملها Wikidata KG، ومناقشة التحديات الفريدة المرتبطة بمجال واسع ومجموع واسع النطاق. نوضح كذلك بأنه لفظي كجم شامل ومكون من كجم مثل Wikidata يمكن استخدامه لدمج KGS الهيكلية واللغات الطبيعية. على عكس العديد من البنيات التي تم تطويرها لدمج هاتين المصدرين، فإن نهجنا يحول كجم إلى نص طبيعي، مما يسمح له بالدمج بسلاسة في نماذج اللغة الحالية. إنه يحمل مزايا أخرى لتحسين الدقة الواقعية وتقليل السمية في نموذج اللغة الناتج. نقوم بتقييم هذا النهج عن طريق زيادة عملية استرجاع النموذج لغوي استرجاع وإظهار تحسينات كبيرة على مهام المعرفة المكثفة في المجال المفتوح وكثير المعرفة LAMA.
تستخدم العديد من الأعمال الحديثة تنظيم التناسق "لتحسين تعميم النماذج المدربة مسبقا بشكل جيد، متعدد اللغات والإنجليزية فقط. هذه الأعمال تشجع النواتج النموذجية على أن تكون مشابهة بين الإصدار المضطربة والطبيعية من المدخلات، وعادة من خلال معاقبة اختلاف K ullback - Leibler (KL) بين توزيع الاحتمالية للنموذج المضطرب والطبيعي. نعتقد أن خسائر الاتساق قد تنظم ضمنا المشهد الخسارة. على وجه الخصوص، نبني على ما يكافؤ على العمل الذي ينظم ضمنيا أو بوضوح تنظيم أثر مصفوفة معلومات فيشر (FIM)، تضخيم التحيز الضمني ل SGD لتجنب الحفظ. تظهر نتائجنا الأولية من الناحية التجريبية وموضوعيا أن خسائر الاتساق مرتبطة بالفترة الفائضة، وإظهار أن الحد الأدنى المسطح الضمني بتتبع صغير من FIM يحسن الأداء عند ضبط نموذج متعدد اللغات على لغات إضافية. نحن نهدف إلى تأكيد هذه النتائج الأولية على مزيد من مجموعات البيانات، واستخدام رؤىنا لتطوير تقنيات منخفضة اللغات متعددة اللغات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا