نقترح نقدي علامتي التعلم النشط (CAL)، وهي خوارزمية للتعلم النشطة الجديدة (AL) التي تستغل سلوك النموذج على الحالات الفردية أثناء التدريب كوكيل للعثور على أكثر الحالات إعلامية لوضع العلامات.يستقبل Cal بواسطة خرائط البيانات، التي اقترحت مؤخرا أن تستمد الأفكار في جودة البيانات (Swayamdipta et al.، 2020).قارنا طريقنا على مهام تصنيف النص الشعبي لاستراتيجيات آل شائعة، والتي تعتمد بدلا من ذلك على سلوك ما بعد التدريب.نوضح أن CAL منافسة أساليب المنطقية المشتركة الأخرى، مما يدل على أن الديناميات التدريبية المستمدة من بيانات البذور الصغيرة يمكن استخدامها بنجاح في آل.نحن نقدم رؤى في طريقتنا الجديدة من خلال تحليل إحصاءات المستوى الدفاعية باستخدام خرائط البيانات.تبين نتائجنا كذلك أن Cal ينتج عنه استراتيجية تعليمية أكثر كفاءة في البيانات، وتحقيق نتائج قابلة للمقارنة أو أفضل مع بيانات تدريب أقل بكثير.
We propose Cartography Active Learning (CAL), a novel Active Learning (AL) algorithm that exploits the behavior of the model on individual instances during training as a proxy to find the most informative instances for labeling. CAL is inspired by data maps, which were recently proposed to derive insights into dataset quality (Swayamdipta et al., 2020). We compare our method on popular text classification tasks to commonly used AL strategies, which instead rely on post-training behavior. We demonstrate that CAL is competitive to other common AL methods, showing that training dynamics derived from small seed data can be successfully used for AL. We provide insights into our new AL method by analyzing batch-level statistics utilizing the data maps. Our results further show that CAL results in a more data-efficient learning strategy, achieving comparable or better results with considerably less training data.
المراجع المستخدمة
https://aclanthology.org/
تحقق هذه الورقة وتكشف عن العلاقة بين اثنين من التخصصات المتعلقة بآلات التعلم عن كثب، وهي التعلم النشط (AL) وتعلم المناهج الدراسية (CL)، من عدسة العديد من المناهج الرواية.تقدم هذه الورقة أيضا التعلم المناهج الدراسية النشطة (ACL) الذي يحسن AL من خلال ا
نطاق الأعمال التي يمكن اعتبارها نظامية NLP للاجتماع الاجتماعي (NLP4SG) هائلة. في حين أن الكثير منهم يستهدفون تحديد خطاب الكراهية أو الأخبار المزيفة، فهناك آخرون هذا العنوان، على سبيل المثال، تبسيط النص لتخفيف عواقب عسر القراءة، أو التدريب على استراتي
تعتمد أنظمة متعددة اللغات متعددة اللغات على المفردات المشتركة التي تغطي جميع اللغات التي تغطي بما فيه الكفاية. تحقيقا لهذه الغاية، فإن النهج البسيط والمستعمل بشكل متكرر يستفيد من مفهليات الكلمات الفرعية التي تم إنشاؤها بشكل مشترك على عدة لغات. نحن نف
أسماء ومعرفات المراقبة المنطقية (LOINC) هي مجموعة قياسية من الرموز التي تمكن الأطباء من التواصل حول الاختبارات الطبية.تعتمد المختبرات على Loinc لتحديد ما تختبر طلبات الطبيب للمريض.ومع ذلك، غالبا ما يستخدم الأطباء رموز مخصصة خاصة بالموقع في أنظمة السج
تقارير الورقة عن المنهجية والنتائج النهائية لرسم خرائط مركدة واسعة النطاق بين plwordnet و princeton wordnet.يتم وصف إجراءات رسم الخرائط اليدوية والمخصصة نصف التلقائي بالإضافة إلى أنواع العلاقات المشترية للأسماء والأفعال والصفات والأحوال.كما يتم توفير إحصاءات جميع أنواع العلاقات المشترية.