تختلف استراتيجيات تحسين جودة التدريب والتنبؤ نماذج التعلم الآلي الأكثر إشرافا ضعيفا في مقدار ما يتم تصميمه إلى مهمة محددة أو متكاملة مع بنية نموذجية معينة. في هذا العمل، نقدم Knodle، وهو إطار برمجي يعامل شروح بيانات ضعيفة، ونماذج التعلم العميق، وطرق تحسين التدريب الخاضع للإشراف على أنه مكونات منفصلة وحديثة. يمنح هذا النزول عملية التدريب الوصول إلى المعلومات المحبوسة الدقيقة مثل خصائص مجموعة البيانات أو تطابقات القواعد المثيرة أو العناصر في نموذج التعلم العميق المستخدم في نهاية المطاف للتنبؤ. وبالتالي، يمكن لإطار عملنا أن يشمل مجموعة واسعة من أساليب التدريب لتحسين الإشراف الضعيف، بدءا من الأساليب التي تنظر فقط إلى ارتباطات القواعد وفئات الإخراج (بشكل مستقل عن نموذج تعلم الجهاز المدرب مع الملصقات الناتجة)، إلى تلك التي تسخير التفاعل من الشبكات العصبية والبيانات المسمى ضعيفة. نوضح الإمكانات القياسية للإطار مع مقارنة أداء العديد من التطبيقات المرجعية بشأن مجموعة مختارة من مجموعات البيانات المتوفرة بالفعل في ترنه.
Strategies for improving the training and prediction quality of weakly supervised machine learning models vary in how much they are tailored to a specific task or integrated with a specific model architecture. In this work, we introduce Knodle, a software framework that treats weak data annotations, deep learning models, and methods for improving weakly supervised training as separate, modular components. This modularization gives the training process access to fine-grained information such as data set characteristics, matches of heuristic rules, or elements of the deep learning model ultimately used for prediction. Hence, our framework can encompass a wide range of training methods for improving weak supervision, ranging from methods that only look at correlations of rules and output classes (independently of the machine learning model trained with the resulting labels), to those that harness the interplay of neural networks and weakly labeled data. We illustrate the benchmarking potential of the framework with a performance comparison of several reference implementations on a selection of datasets that are already available in Knodle.
المراجع المستخدمة
https://aclanthology.org/
اكتشاف النوايا الخارجية (OOD) أمر حاسم لنظام الحوار المنتشر الموجه نحو المهام.ستقوم أساليب الكشف عن OOD السابقة غير المعروضة فقط باستخراج الميزات التمييزية لمختلف النوايا داخل المجال، بينما يمكن للنظيرات الإشرافية التمييز مباشرة من النوايا OOD والمجا
يهدف توليد تقرير الأشعة إلى توليد النص الوصفي من صور الأشعة تلقائيا، مما قد يقدم فرصة لتحسين تقارير الأشعة وتفسيره.يتكون الإعداد النموذجي من نماذج ترميز ترميز التشفير التدريب على أزواج تقارير الصور مع فقدان الانتروبيا الصليب، والذي يكافح من أجل توليد
لا ينبغي أن يؤدي نظام الحوار الذكي في إعداد متعدد المنعطف إلى إنشاء الاستجابات فقط من نوعية جيدة، ولكن يجب أن تولد أيضا الردود التي يمكن أن تؤدي إلى نجاح طويل الأجل للحوار. على الرغم من أن الأساليب الحالية تحسنت جودة الاستجابة، إلا أنها تنظر إلى الإش
تهدف التلخيص التلقائي إلى استخراج معلومات مهمة من كميات كبيرة من البيانات النصية من أجل إنشاء إصدار أقصر من النصوص الأصلية مع الحفاظ على معلوماتها. تعتمد تدريب نماذج تلخيص الاستخراجية التقليدية بشكل كبير على الملصقات المهندسة البشرية مثل التعليقات ال
تهدف أساس التأريض اللغوي (TLG) إلى توطين شريحة فيديو في فيديو غير جذاب بناء على وصف لغة طبيعية. لتخفيف التكلفة الباهظة الثمن التوضيحية للشروح اليدوية لملصقات الحدود الزمنية، نحن مخصصة للإعداد الإشراف ضعيف، حيث يتم توفير أوصاف على مستوى الفيديو فقط لل