ترغب بنشر مسار تعليمي؟ اضغط هنا

ليس فقط الحجم الذي يهم: نماذج لغة صغيرة هي أيضا عدد قليل من المتعلمين

It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners

315   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

عند التحجيم إلى مئات مليارات مليارات المعلمات، فإن نماذج اللغة المحددة مسبقا مثل GPT-3 (Brown et al.، 2020) تحقق أداءا ملحوظا قليلا.ومع ذلك، فإن كميات هائلة من الحساب مطلوبة للتدريب وتطبيق هذه النماذج الكبيرة، مما أدى إلى بصمة كبيرة على الكربون وجعل من الصعب على الباحثين والممارسين استخدامها.نظهر أنه يمكن الحصول على الأداء المشابه ل GPT-3 مع طرازات اللغة أكثر خضرة "" في أن عدد المعلمات لديهم عدة أوامر من الحجم أصغر.يتم تحقيق ذلك من خلال تحويل المدخلات النصية إلى أسئلة كتين تحتوي على وصف مهمة، جنبا إلى جنب مع التحسين المستندة إلى التدرج؛إن استغلال البيانات غير المسبقة يمنح تحسينات إضافية.نحدد العوامل الرئيسية المطلوبة لفهم اللغة الطبيعية الناجحة مع نماذج لغة صغيرة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهرت نماذج اللغة للأغراض العامة قدرات مثيرة للإعجاب، وأداء على قدم المساواة مع النهج الحديثة على مجموعة من مهام ومعايير معالجة اللغة الطبيعية المصب (NLP) عند استنتاج التعليمات من الأمثلة القليلة للغاية.هنا، نقيم المهارات متعددة اللغات في نماذج GPT و T5 في إجراء تصنيف متعدد الفئات على اللغات غير الإنجليزية دون أي تحديثات معلمة.نظهر أنه بالنظر إلى عدد قليل من الأمثلة الإنجليزية كسياق، يمكن أن تتنبأ نماذج اللغة المدربة مسبقا بعينات اختبار اللغة الإنجليزية فقط ولكن أيضا غير الإنجليزية منها.أخيرا، نجد نتائج التنبؤ القليل من الطوابق في السياق لنماذج اللغة أفضل بكثير من التنبؤ العشوائي، وهي تنافسية مقارنة بالموديلات المتبادلة الحالية من أحدث ونماذج الترجمة الحالية.
في هذه الورقة، ندرس استخدام النماذج اللغوية المدربة مسبقا لتمكين توليد لغة البندقية القليلة (NLG) في أنظمة الحوار الموجهة نحو المهام. نقدم نظاما يتكون من التدريب الذاتي التكراري وإطار قالب صغير قابل للتوسيع يتم تخصيص بيانات الإدخال المهيكلة في نص شبه طبيعي للاستفادة الكاملة من نماذج اللغة المدربة مسبقا. نحن نقارن تمثيلات Var Ious لإدخال ونماذج NLG وإخراجها وإظهار أن تحويل المدخلات والمخرجات لتكون مشابهة لما شابه نموذج اللغة من قبل أثناء التدريب المسبق يحسن أداء الطراز القليل من الطرازات. نظظ أن Mod-Els العصبي يمكن تدريبها على أساس عدد قليل من الأمثلة المشروحة مع توفير الدقة العالية، وخفضت إلى حد كبير متطلبات الموارد الخاصة بوقوف مجال جديد أو لغة. هذا مستوى كفاءة البيانات يزيل الحاجة إلى جمع بيانات الحشد مما أدى إلى جودة أعلى جودة مشروح من قبل اللغويين الخبراء. بالإضافة إلى ذلك، ستحسن عمليات صيانة النموذج والتصحيح في هذا الإعداد القليل من الرصاص. أخيرا، نستكشف تقطير واستخدام نظام التخزين المؤقت لإرضاء متطلبات الكمون لأنظمة العالم الحقيقي.
تعتمد معالجة اللغة الطبيعية (NLP) بشكل متزايد على الأنظمة العامة المناسبة التي تحتاج إلى التعامل مع العديد من الظواهر اللغوية المختلفة والفروق الدقيقة. على سبيل المثال، يتعين على نظام الاستدلال باللغة الطبيعية (NLI) أن يتعرف على المعنويات، والتعامل م ع الأرقام، وإجراء حلول، وما إلى ذلك. لا تزال حلولنا للمشاكل المعقدة بعيدة عن الكمال، لذلك من المهم إنشاء أنظمة يمكن أن تتعلم تصحيح الأخطاء بسرعة، تدريجيا، ومع القليل من البيانات التدريبية. في هذا العمل، نقترح مهمة التعلم القليلة المستمرة (CFL)، حيث يتم الطعن للنظام بظاهرة صعبة وطلب منهم أن يتعلموا تصحيح الأخطاء مع أمثلة تدريبية فقط (10 إلى 15). تحقيقا لهذه الغاية، نقوم أولا بإنشاء معايير بناء على البيانات المشروحة مسبقا: DetaSets NLI (Anli and Snli) ومجموعات بيانات تحليل المشاعر (IMDB). بعد ذلك، نقدم خطوط أساس مختلفة من النماذج المتنوعة (على سبيل المثال، أخطاقات علم الذاكرة والشبكات النموذجية) ومقارنتها في التعلم القليل من الطلقات والكم من إعدادات التعلم القليلة المستمرة. إن مساهماتنا هي في إنشاء بروتوكول جناح وتقييم معيار لاستمرار التعلم القليل من الرصاص حول مهام تصنيف النص، وعمل العديد من الملاحظات المثيرة للاهتمام حول سلوك الأساليب القائمة على التشابه. نأمل أن يعمل عملنا كنقطة انطلاق مفيدة للعمل في المستقبل على هذا الموضوع الهام.
البشر قادرون على تعلم مفاهيم جديدة من أمثلة قليلة جدا؛ في المقابل، تحتاج خوارزميات التعلم في الآلة الحديثة عادة الآلاف من الأمثلة للقيام بذلك. في هذه الورقة، نقترح خوارزمية لتعلم مفاهيم جديدة من خلال تمثيلها كبرامج بشأن المفاهيم القائمة. وبهذه الطريق ة، تعتبر مشكلة التعلم المفهوم بشكل طبيعي مشكلة تخليق برنامجا وتخصصت خوارزميةنا من بعض الأمثلة لتوليف برنامج يمثل مفهوم الرواية. بالإضافة إلى ذلك، نقوم بإجراء تحليل نظري لنهجنا للقضية التي يكون فيها البرنامج الذي يحدد مفهوم الرواية على تلك الموجودة خالية من السياق. نظهر أنه بالنظر إلى المحلل المحلل القائم على النحو المستفاد وقاعدة الإنتاج الجديدة، يمكننا زيادة المحلل بمحلل مع قاعدة الإنتاج بطريقة تعميم. نقيم نهجنا من خلال مفاهيم التعلم في مجال التحليل الدلالي الممتد إلى إعداد تعلم مفهوم الرواية القليلة، مما يظهر أن نهجنا يتفوق بشكل كبير على المحللين الدلالي العصبي المنتهي.
تحقق هذه الورقة في فعالية التدريب المسبق لتصنيف قلة الطابع القليلة.في حين أن النماذج الحالية عادة ما تكون هناك مزيد من النماذج اللغوية السابقة لما قبل التدريب مثل Bert على كمية شاسعة من Corpus غير المسبق، فإننا نجد أنها فعالة للغاية وكفاءة ببساطة Bri te Tune Bert مع مجموعة صغيرة من الكلام المسمى من مجموعات البيانات العامة.على وجه التحديد، تقوم Brtt Tuning Berting ذات الصقل مع ما يقرب من 1000 من البيانات المسمى نموذجا مدربا مسبقا - Intentbert، والذي يمكن أن يتجاوز بسهولة أداء النماذج المدربة مسبقا الحالية للحصول على تصنيف قلة الطابع على النطاقات الجديدة مع دلائل مختلفة للغاية.تؤكد فعالية Intentbert المرتفعة من جدوى وعملية الكشف عن القلة القليلة، وتقترح قدرة تعميمها العالية عبر المجالات المختلفة أن مهام تصنيف النوايا قد تشارك هيكل أساسي مماثل، والتي يمكن تعلمها بكفاءة من مجموعة صغيرة من البيانات المسمى.يمكن العثور على شفرة المصدر في https://github.com/hdzhang-code/intentbert.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا