القدرة على توسيع المعرفة باستمرار مع مرور الوقت واستخدامها للتعميم السريع للمهام الجديدة هي سمة رئيسية لاستخبارات اللغوية البشرية. ومع ذلك، فإن النماذج الموجودة التي تتابع التعميم السريع لمهام جديدة (على سبيل المثال، طرق تعلم قليلة بالرصاص) تتدرب في الغالب في طلقة واحدة على مجموعات البيانات الثابتة، غير القادرة على توسيع معارفها ديناميكيا؛ في حين أن خوارزميات التعلم المستمرة ليست مصممة خصيصا للتعميم السريع. نقدم إعداد تعليمي جديد، وتعلم مستمر لمتعلمي القليل من الأخطاء (CLIF)، لمعالجة تحديات كلا من إعدادات التعلم في إعداد موحد. يفترض CLIF نموذجا يتعلم من سلسلة من مهام NLP المتنوعة التي تصل بالتتابع، وتراكم المعرفة لتحسين التعميم إلى مهام جديدة، مع الحفاظ أيضا على الأداء على المهام المستفادة في وقت سابق. ندرس كيف تتأثر قدرة تعميم التعميم في إعداد التعلم المستمر، وتقييم عدد من خوارزميات التعلم المستمرة، واقتراح نهج جيل محول منتظمت جديد. نجد أن النسيان الكارثي يؤثر على قدرة التعميم على درجة أقل من الأداء في المهام المشاهدة؛ في حين أن خوارزميات التعلم المستمرة لا تزال تحقق فائدة كبيرة لقدرة التعميم.
The ability to continuously expand knowledge over time and utilize it to rapidly generalize to new tasks is a key feature of human linguistic intelligence. Existing models that pursue rapid generalization to new tasks (e.g., few-shot learning methods), however, are mostly trained in a single shot on fixed datasets, unable to dynamically expand their knowledge; while continual learning algorithms are not specifically designed for rapid generalization. We present a new learning setup, Continual Learning of Few-Shot Learners (CLIF), to address challenges of both learning settings in a unified setup. CLIF assumes a model learns from a sequence of diverse NLP tasks arriving sequentially, accumulating knowledge for improved generalization to new tasks, while also retaining performance on the tasks learned earlier. We examine how the generalization ability is affected in the continual learning setup, evaluate a number of continual learning algorithms, and propose a novel regularized adapter generation approach. We find that catastrophic forgetting affects generalization ability to a lesser degree than performance on seen tasks; while continual learning algorithms can still bring considerable benefit to the generalization ability.
References used
https://aclanthology.org/
Humans can distinguish new categories very efficiently with few examples, largely due to the fact that human beings can leverage knowledge obtained from relevant tasks. However, deep learning based text classification model tends to struggle to achie
Natural Language Processing (NLP) is increasingly relying on general end-to-end systems that need to handle many different linguistic phenomena and nuances. For example, a Natural Language Inference (NLI) system has to recognize sentiment, handle num
Humans are capable of learning novel concepts from very few examples; in contrast, state-of-the-art machine learning algorithms typically need thousands of examples to do so. In this paper, we propose an algorithm for learning novel concepts by repre
Meta-learning has recently been proposed to learn models and algorithms that can generalize from a handful of examples. However, applications to structured prediction and textual tasks pose challenges for meta-learning algorithms. In this paper, we a
Existing work on automated hate speech classification assumes that the dataset is fixed and the classes are pre-defined. However, the amount of data in social media increases every day, and the hot topics changes rapidly, requiring the classifiers to