ترغب بنشر مسار تعليمي؟ اضغط هنا

عدد قليل من التعلم قليلا لتصنيف النص

Continual Few-Shot Learning for Text Classification

556   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعتمد معالجة اللغة الطبيعية (NLP) بشكل متزايد على الأنظمة العامة المناسبة التي تحتاج إلى التعامل مع العديد من الظواهر اللغوية المختلفة والفروق الدقيقة. على سبيل المثال، يتعين على نظام الاستدلال باللغة الطبيعية (NLI) أن يتعرف على المعنويات، والتعامل مع الأرقام، وإجراء حلول، وما إلى ذلك. لا تزال حلولنا للمشاكل المعقدة بعيدة عن الكمال، لذلك من المهم إنشاء أنظمة يمكن أن تتعلم تصحيح الأخطاء بسرعة، تدريجيا، ومع القليل من البيانات التدريبية. في هذا العمل، نقترح مهمة التعلم القليلة المستمرة (CFL)، حيث يتم الطعن للنظام بظاهرة صعبة وطلب منهم أن يتعلموا تصحيح الأخطاء مع أمثلة تدريبية فقط (10 إلى 15). تحقيقا لهذه الغاية، نقوم أولا بإنشاء معايير بناء على البيانات المشروحة مسبقا: DetaSets NLI (Anli and Snli) ومجموعات بيانات تحليل المشاعر (IMDB). بعد ذلك، نقدم خطوط أساس مختلفة من النماذج المتنوعة (على سبيل المثال، أخطاقات علم الذاكرة والشبكات النموذجية) ومقارنتها في التعلم القليل من الطلقات والكم من إعدادات التعلم القليلة المستمرة. إن مساهماتنا هي في إنشاء بروتوكول جناح وتقييم معيار لاستمرار التعلم القليل من الرصاص حول مهام تصنيف النص، وعمل العديد من الملاحظات المثيرة للاهتمام حول سلوك الأساليب القائمة على التشابه. نأمل أن يعمل عملنا كنقطة انطلاق مفيدة للعمل في المستقبل على هذا الموضوع الهام.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحقق هذه الورقة في فعالية التدريب المسبق لتصنيف قلة الطابع القليلة.في حين أن النماذج الحالية عادة ما تكون هناك مزيد من النماذج اللغوية السابقة لما قبل التدريب مثل Bert على كمية شاسعة من Corpus غير المسبق، فإننا نجد أنها فعالة للغاية وكفاءة ببساطة Bri te Tune Bert مع مجموعة صغيرة من الكلام المسمى من مجموعات البيانات العامة.على وجه التحديد، تقوم Brtt Tuning Berting ذات الصقل مع ما يقرب من 1000 من البيانات المسمى نموذجا مدربا مسبقا - Intentbert، والذي يمكن أن يتجاوز بسهولة أداء النماذج المدربة مسبقا الحالية للحصول على تصنيف قلة الطابع على النطاقات الجديدة مع دلائل مختلفة للغاية.تؤكد فعالية Intentbert المرتفعة من جدوى وعملية الكشف عن القلة القليلة، وتقترح قدرة تعميمها العالية عبر المجالات المختلفة أن مهام تصنيف النوايا قد تشارك هيكل أساسي مماثل، والتي يمكن تعلمها بكفاءة من مجموعة صغيرة من البيانات المسمى.يمكن العثور على شفرة المصدر في https://github.com/hdzhang-code/intentbert.
البشر قادرون على تعلم مفاهيم جديدة من أمثلة قليلة جدا؛ في المقابل، تحتاج خوارزميات التعلم في الآلة الحديثة عادة الآلاف من الأمثلة للقيام بذلك. في هذه الورقة، نقترح خوارزمية لتعلم مفاهيم جديدة من خلال تمثيلها كبرامج بشأن المفاهيم القائمة. وبهذه الطريق ة، تعتبر مشكلة التعلم المفهوم بشكل طبيعي مشكلة تخليق برنامجا وتخصصت خوارزميةنا من بعض الأمثلة لتوليف برنامج يمثل مفهوم الرواية. بالإضافة إلى ذلك، نقوم بإجراء تحليل نظري لنهجنا للقضية التي يكون فيها البرنامج الذي يحدد مفهوم الرواية على تلك الموجودة خالية من السياق. نظهر أنه بالنظر إلى المحلل المحلل القائم على النحو المستفاد وقاعدة الإنتاج الجديدة، يمكننا زيادة المحلل بمحلل مع قاعدة الإنتاج بطريقة تعميم. نقيم نهجنا من خلال مفاهيم التعلم في مجال التحليل الدلالي الممتد إلى إعداد تعلم مفهوم الرواية القليلة، مما يظهر أن نهجنا يتفوق بشكل كبير على المحللين الدلالي العصبي المنتهي.
تعد تصنيف النوايا (IC) وملء الفتحات (SF) لبنات بناء مهمة في أنظمة الحوار الموجهة نحو المهام. هذه المهامتين مرتبطان ارتباطا وثيقا ويمكن أن تزدهر بعضهما البعض. نظرا لأن عدد قليل فقط من الكلام، يمكن استخدامها لتحديد النوايا والفتحات الجديدة الناشئة، وغا لبا ما تحدث مشكلة ندرة البيانات عند تنفيذ IC و SF. ومع ذلك، فإن عدد قليل من نماذج IC / SF تعمل بشكل جيد عندما يكون عدد عينات التدريب لكل فئة صغيرة جدا. في هذه الورقة، نقترح إطارا تعليميا مشتركا متميزا ومشروعا مختلفا ومشروعا للإشراف من أجل تصنيف قلة الطابع وملء الفتحة. أبرزها هي كما يلي. (1) يقوم النموذج بإجراء عروض النية والفخان عبر التفاعلات ثنائية الاتجاه، ويمتد الشبكة النموذجية لتحقيق التعلم الصريح المشترك، والذي يضمن أن مهام IC و SF يمكن أن تعزز بعضها البعض. (2) يتكامل النموذج مع التعلم المتعري الخاضع للإشراف، مما يضمن سحب العينات من نفس الفصل معا ويتم دفع عينات من فئات مختلفة. بالإضافة إلى ذلك، يتبع النموذج بطريقة غير شائعة ولكن عملية لبناء الحلقة، والتي تتخلص من الإعداد التقليدي مع طريقة ثابتة وإطلاق النار، وتسمح بموادات البيانات غير المتوازنة. تجارب واسعة على ثلاث مجموعات بيانات عامة تظهر أن نموذجنا يمكن أن يحقق أداء واعد.
يهدف التعلم التعريف إلى تحسين قدرات النموذج على تعميم المهام والمجالات الجديدة. منعت عدم وجود طريقة فعالة للبيانات لإنشاء مهام التدريب META قد منع تطبيق التعلم التلوي لسيناريوهات التعلم القليلة في العالم الحقيقي. اقترحت الدراسات الحديثة مناهج غير مده ونة لإنشاء مهام تدريبية من البيانات غير المستدامة مجانا، على سبيل المثال، طريقة SMLMT (BANSAL et al.، 2020a) تقوم بمهام تصنيف متعددة الطبقات غير المعروضة من النص غير المستعود من خلال إخفاء الكلمات بشكل عشوائي في الجملة و دع Meta Learner يختار أي كلمة لملء الفراغ. تقترح هذه الدراسة نهجا تعليميا شبه إشرافه يشتمل على كل من قوة تمثيل النماذج اللغوية المدربة مسبقا مسبقا وقدرة التعميم على الشبكات النموذجية المعززة من قبل SMLMT. يتجنب نهج التدريب المنوي شبه المشرف على الشبكات النموذجية الجائرة على عدد صغير من أمثلة التدريب المسمى وسرعة يتعلم التمثيل الخاص بمهام المهام عبر المجال فقط من بعض الأمثلة الداعمة. من خلال دمج SMLMT مع الشبكات النموذجية، تعميم المتعلم التعريف بشكل أفضل من المجالات غير المرئية وتحقق دقة أعلى على الأمثلة خارج النطاق دون رفع ما قبل التدريب. نلاحظ تحسنا كبيرا في تعميم القليل من اللقطات بعد التدريب فقط على عدد قليل من العصر على مهام تصنيف النوايا التي تم تقييمها في إعداد متعدد المجالات.
القدرة على توسيع المعرفة باستمرار مع مرور الوقت واستخدامها للتعميم السريع للمهام الجديدة هي سمة رئيسية لاستخبارات اللغوية البشرية. ومع ذلك، فإن النماذج الموجودة التي تتابع التعميم السريع لمهام جديدة (على سبيل المثال، طرق تعلم قليلة بالرصاص) تتدرب في الغالب في طلقة واحدة على مجموعات البيانات الثابتة، غير القادرة على توسيع معارفها ديناميكيا؛ في حين أن خوارزميات التعلم المستمرة ليست مصممة خصيصا للتعميم السريع. نقدم إعداد تعليمي جديد، وتعلم مستمر لمتعلمي القليل من الأخطاء (CLIF)، لمعالجة تحديات كلا من إعدادات التعلم في إعداد موحد. يفترض CLIF نموذجا يتعلم من سلسلة من مهام NLP المتنوعة التي تصل بالتتابع، وتراكم المعرفة لتحسين التعميم إلى مهام جديدة، مع الحفاظ أيضا على الأداء على المهام المستفادة في وقت سابق. ندرس كيف تتأثر قدرة تعميم التعميم في إعداد التعلم المستمر، وتقييم عدد من خوارزميات التعلم المستمرة، واقتراح نهج جيل محول منتظمت جديد. نجد أن النسيان الكارثي يؤثر على قدرة التعميم على درجة أقل من الأداء في المهام المشاهدة؛ في حين أن خوارزميات التعلم المستمرة لا تزال تحقق فائدة كبيرة لقدرة التعميم.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا