عادة ما تتم دراسة تصنيف النص عن طريق وضع علامات نصوص اللغة الطبيعية مع الفئات ذات الصلة من مجموعة محددة مسبقا. في العالم الحقيقي، قد تستمر فصول جديدة في تحدي النظام الحالي مع بيانات محدودة المسمى. يجب أن يكون النظام ذكي بما يكفي للتعرف على الطبقات الجديدة القادمة مع بعض الأمثلة. في هذا العمل، نحدد مهمة جديدة في مجال NLP، تصنيف النص قليل الطوابق الإضافي، حيث يتعامل النظام تدريجيا جولات متعددة من الفصول الجديدة. لكل جولة، هناك مجموعة من الطبقات الجديدة مع بعض الأمثلة المسمى لكل فصل. يوجد تحديان رئيسيان في هذه المهمة الجديدة: (1) لعملية التعلم، يجب أن يتعلم النظام تدريجيا على جولة فصول جديدة جولة من الجولة دون إعادة التدريب على الأمثلة على الطبقات السابقة؛ (2) بالنسبة للأداء، يجب أن يؤدي النظام بشكل جيد على فئات جديدة دون فقدان الكثير في الفصول السابقة. بالإضافة إلى صياغة المهمة الجديدة، نقوم أيضا بإصدار مجموعة بيانات قياسية في الإعداد القليل من الرصاص الإضافي: تصنيف النوايا وتصنيف العلاقات. علاوة على ذلك، نقترح اثنين مناهج استقصاء وتتبعها والجاذبية، والتي تظهر الوعد بحل هذه المشكلة الرواية.
Text classification is usually studied by labeling natural language texts with relevant categories from a predefined set. In the real world, new classes might keep challenging the existing system with limited labeled data. The system should be intelligent enough to recognize upcoming new classes with a few examples. In this work, we define a new task in the NLP domain, incremental few-shot text classification, where the system incrementally handles multiple rounds of new classes. For each round, there is a batch of new classes with a few labeled examples per class. Two major challenges exist in this new task: (i) For the learning process, the system should incrementally learn new classes round by round without re-training on the examples of preceding classes; (ii) For the performance, the system should perform well on new classes without much loss on preceding classes. In addition to formulating the new task, we also release two benchmark datasets in the incremental few-shot setting: intent classification and relation classification. Moreover, we propose two entailment approaches, ENTAILMENT and HYBRID, which show promise for solving this novel problem.
المراجع المستخدمة
https://aclanthology.org/
أظهرت الدراسات الحديثة أن مطالبات تحسين أداء نماذج اللغة الكبيرة المدربة مسبقا مسبقا لتصنيف نص قليل بالرصاص. ومع ذلك، فمن غير الواضح كيف يمكن نقل المعرفة المطالبة عبر مهام NLP مماثلة لغرض التعزيز المتبادل. بناء على embeddings الفوري المستمر، نقترح Tr
إن توفير نماذج اللغة المحددة مسبقا مع أوصاف مهمة بسيطة في اللغة الطبيعية تمكنهم من حل بعض المهام بطريقة غير منشأة بالكامل. علاوة على ذلك، عند دمج التعلم المنتظم من الأمثلة، فإن هذه الفكرة تنتج نتائج قليلة رائعة لمجموعة واسعة من مهام تصنيف النص. كما أ
ينشأ التعلم القليل من الرصاص في سيناريوهات عملية مهمة، كما هو الحال عندما يحتاج نظام فهم اللغة الطبيعية إلى تعلم ملصقات دلالية جديدة للنشاط الناشئ والموارد النادر. في هذه الورقة، نستكشف الأساليب القائمة على استرجاع مهام تعبئة النوايا وملء الفتحات في
تعتمد معالجة اللغة الطبيعية (NLP) بشكل متزايد على الأنظمة العامة المناسبة التي تحتاج إلى التعامل مع العديد من الظواهر اللغوية المختلفة والفروق الدقيقة. على سبيل المثال، يتعين على نظام الاستدلال باللغة الطبيعية (NLI) أن يتعرف على المعنويات، والتعامل م
نقدم متعدد اليوراء، مجموعة بيانات جديدة متعددة اللغات لتصنيف الموضوع للوثائق القانونية. تضم DataSet قوانين الاتحاد الأوروبي 65 ألف (EU)، والتي ترجمت رسميا في 23 لغة، مشروحا بالملصقات المتعددة من تصنيف Eurovoc. نسلط الضوء على تأثير المنفأة الزمنية الا