ترغب بنشر مسار تعليمي؟ اضغط هنا

نماذج اللغة هي عدد قليل من المتعلمين متعدد اللغات

Language Models are Few-shot Multilingual Learners

242   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أظهرت نماذج اللغة للأغراض العامة قدرات مثيرة للإعجاب، وأداء على قدم المساواة مع النهج الحديثة على مجموعة من مهام ومعايير معالجة اللغة الطبيعية المصب (NLP) عند استنتاج التعليمات من الأمثلة القليلة للغاية.هنا، نقيم المهارات متعددة اللغات في نماذج GPT و T5 في إجراء تصنيف متعدد الفئات على اللغات غير الإنجليزية دون أي تحديثات معلمة.نظهر أنه بالنظر إلى عدد قليل من الأمثلة الإنجليزية كسياق، يمكن أن تتنبأ نماذج اللغة المدربة مسبقا بعينات اختبار اللغة الإنجليزية فقط ولكن أيضا غير الإنجليزية منها.أخيرا، نجد نتائج التنبؤ القليل من الطوابق في السياق لنماذج اللغة أفضل بكثير من التنبؤ العشوائي، وهي تنافسية مقارنة بالموديلات المتبادلة الحالية من أحدث ونماذج الترجمة الحالية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

عند التحجيم إلى مئات مليارات مليارات المعلمات، فإن نماذج اللغة المحددة مسبقا مثل GPT-3 (Brown et al.، 2020) تحقق أداءا ملحوظا قليلا.ومع ذلك، فإن كميات هائلة من الحساب مطلوبة للتدريب وتطبيق هذه النماذج الكبيرة، مما أدى إلى بصمة كبيرة على الكربون وجعل من الصعب على الباحثين والممارسين استخدامها.نظهر أنه يمكن الحصول على الأداء المشابه ل GPT-3 مع طرازات اللغة أكثر خضرة "" في أن عدد المعلمات لديهم عدة أوامر من الحجم أصغر.يتم تحقيق ذلك من خلال تحويل المدخلات النصية إلى أسئلة كتين تحتوي على وصف مهمة، جنبا إلى جنب مع التحسين المستندة إلى التدرج؛إن استغلال البيانات غير المسبقة يمنح تحسينات إضافية.نحدد العوامل الرئيسية المطلوبة لفهم اللغة الطبيعية الناجحة مع نماذج لغة صغيرة.
في هذه الورقة، ندرس استخدام النماذج اللغوية المدربة مسبقا لتمكين توليد لغة البندقية القليلة (NLG) في أنظمة الحوار الموجهة نحو المهام. نقدم نظاما يتكون من التدريب الذاتي التكراري وإطار قالب صغير قابل للتوسيع يتم تخصيص بيانات الإدخال المهيكلة في نص شبه طبيعي للاستفادة الكاملة من نماذج اللغة المدربة مسبقا. نحن نقارن تمثيلات Var Ious لإدخال ونماذج NLG وإخراجها وإظهار أن تحويل المدخلات والمخرجات لتكون مشابهة لما شابه نموذج اللغة من قبل أثناء التدريب المسبق يحسن أداء الطراز القليل من الطرازات. نظظ أن Mod-Els العصبي يمكن تدريبها على أساس عدد قليل من الأمثلة المشروحة مع توفير الدقة العالية، وخفضت إلى حد كبير متطلبات الموارد الخاصة بوقوف مجال جديد أو لغة. هذا مستوى كفاءة البيانات يزيل الحاجة إلى جمع بيانات الحشد مما أدى إلى جودة أعلى جودة مشروح من قبل اللغويين الخبراء. بالإضافة إلى ذلك، ستحسن عمليات صيانة النموذج والتصحيح في هذا الإعداد القليل من الرصاص. أخيرا، نستكشف تقطير واستخدام نظام التخزين المؤقت لإرضاء متطلبات الكمون لأنظمة العالم الحقيقي.
نستكشف استخدام نماذج لغة كبيرة مسببة الاحتراج كحلل دلالي أقل بالرصاص.الهدف في التحليل الدلالي هو توليد تمثيل معنى منظم بالنظر إلى إدخال لغة طبيعية.ومع ذلك، يتم تدريب نماذج اللغة لتوليد اللغة الطبيعية.لسد الفجوة، نستخدم نماذج اللغة لإعادة صياغة المدخل ات في Sublanguage تسيطر يشبه اللغة الإنجليزية التي يمكن تعيينها تلقائيا إلى تمثيل معنى الهدف.توضح نتائجنا أنه مع كمية صغيرة فقط من البيانات والكود القليل جدا لتحويلها إلى تمثيلات تشبه اللغة الإنجليزية، يؤدي مخططنا لتحقيق البث الدلالي السريع إلى أداء فعال بشكل مدهش على مهام مجتمع متعددة، يتجاوز بشكل كبير أساليب خط الأساس المدربة أيضا على نفس المحدودةبيانات.
كما تم كشف النقاب عنها أن نماذج اللغة المدربة مسبقا (PLMS) هي إلى حد ما قادر على الاعتراف بالمفاهيم النحوية باللغة الطبيعية، فقد تم بذل الكثير من الجهد لتطوير طريقة لاستخراج التقييم الكامل (الثنائي) من PLMS دون تدريب محللين منفصلين. نحن نحسن على هذا النموذج من خلال اقتراح طريقة قائمة على الرسم البياني القائمة على الرسم البياني وتقنية فرعية فعالة من أعلى كوب. علاوة على ذلك، نوضح أنه يمكننا توسيع نطاق تطبيق النهج في إعدادات متعددة اللغات. على وجه التحديد، نظير على أنه من خلال تطبيق طريقتنا على مقدمي اللغات متعددة اللغات، يصبح من الممكن أن يحفز على التقييم غير التافه من الجمل من تسع لغات بطريقة متكاملة وغير مرغقة بلغة، وتحصل على أداء متفوقة أو مماثلة لتلك الخاصة ب PCFGS غير المعروضة. نحن نتحقق أيضا من أن نهجنا قوي للتحويل عبر اللغات. أخيرا، نقدم التحليلات على الأعمال الداخلية لطرأتنا. على سبيل المثال، نكتشف رؤوس الانتباه العالمية التي هي حساسة باستمرار للحصول على معلومات النحوية بغض النظر عن لغة الإدخال.
تعتمد معالجة اللغة الطبيعية (NLP) بشكل متزايد على الأنظمة العامة المناسبة التي تحتاج إلى التعامل مع العديد من الظواهر اللغوية المختلفة والفروق الدقيقة. على سبيل المثال، يتعين على نظام الاستدلال باللغة الطبيعية (NLI) أن يتعرف على المعنويات، والتعامل م ع الأرقام، وإجراء حلول، وما إلى ذلك. لا تزال حلولنا للمشاكل المعقدة بعيدة عن الكمال، لذلك من المهم إنشاء أنظمة يمكن أن تتعلم تصحيح الأخطاء بسرعة، تدريجيا، ومع القليل من البيانات التدريبية. في هذا العمل، نقترح مهمة التعلم القليلة المستمرة (CFL)، حيث يتم الطعن للنظام بظاهرة صعبة وطلب منهم أن يتعلموا تصحيح الأخطاء مع أمثلة تدريبية فقط (10 إلى 15). تحقيقا لهذه الغاية، نقوم أولا بإنشاء معايير بناء على البيانات المشروحة مسبقا: DetaSets NLI (Anli and Snli) ومجموعات بيانات تحليل المشاعر (IMDB). بعد ذلك، نقدم خطوط أساس مختلفة من النماذج المتنوعة (على سبيل المثال، أخطاقات علم الذاكرة والشبكات النموذجية) ومقارنتها في التعلم القليل من الطلقات والكم من إعدادات التعلم القليلة المستمرة. إن مساهماتنا هي في إنشاء بروتوكول جناح وتقييم معيار لاستمرار التعلم القليل من الرصاص حول مهام تصنيف النص، وعمل العديد من الملاحظات المثيرة للاهتمام حول سلوك الأساليب القائمة على التشابه. نأمل أن يعمل عملنا كنقطة انطلاق مفيدة للعمل في المستقبل على هذا الموضوع الهام.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا