تختلف استراتيجيات تحسين جودة التدريب والتنبؤ نماذج التعلم الآلي الأكثر إشرافا ضعيفا في مقدار ما يتم تصميمه إلى مهمة محددة أو متكاملة مع بنية نموذجية معينة. في هذا العمل، نقدم Knodle، وهو إطار برمجي يعامل شروح بيانات ضعيفة، ونماذج التعلم العميق، وطرق تحسين التدريب الخاضع للإشراف على أنه مكونات منفصلة وحديثة. يمنح هذا النزول عملية التدريب الوصول إلى المعلومات المحبوسة الدقيقة مثل خصائص مجموعة البيانات أو تطابقات القواعد المثيرة أو العناصر في نموذج التعلم العميق المستخدم في نهاية المطاف للتنبؤ. وبالتالي، يمكن لإطار عملنا أن يشمل مجموعة واسعة من أساليب التدريب لتحسين الإشراف الضعيف، بدءا من الأساليب التي تنظر فقط إلى ارتباطات القواعد وفئات الإخراج (بشكل مستقل عن نموذج تعلم الجهاز المدرب مع الملصقات الناتجة)، إلى تلك التي تسخير التفاعل من الشبكات العصبية والبيانات المسمى ضعيفة. نوضح الإمكانات القياسية للإطار مع مقارنة أداء العديد من التطبيقات المرجعية بشأن مجموعة مختارة من مجموعات البيانات المتوفرة بالفعل في ترنه.
Strategies for improving the training and prediction quality of weakly supervised machine learning models vary in how much they are tailored to a specific task or integrated with a specific model architecture. In this work, we introduce Knodle, a software framework that treats weak data annotations, deep learning models, and methods for improving weakly supervised training as separate, modular components. This modularization gives the training process access to fine-grained information such as data set characteristics, matches of heuristic rules, or elements of the deep learning model ultimately used for prediction. Hence, our framework can encompass a wide range of training methods for improving weak supervision, ranging from methods that only look at correlations of rules and output classes (independently of the machine learning model trained with the resulting labels), to those that harness the interplay of neural networks and weakly labeled data. We illustrate the benchmarking potential of the framework with a performance comparison of several reference implementations on a selection of datasets that are already available in Knodle.
References used
https://aclanthology.org/
Detecting out-of-domain (OOD) intents is crucial for the deployed task-oriented dialogue system. Previous unsupervised OOD detection methods only extract discriminative features of different in-domain intents while supervised counterparts can directl
Radiology report generation aims at generating descriptive text from radiology images automatically, which may present an opportunity to improve radiology reporting and interpretation. A typical setting consists of training encoder-decoder models on
An intelligent dialogue system in a multi-turn setting should not only generate the responses which are of good quality, but it should also generate the responses which can lead to long-term success of the dialogue. Although, the current approaches i
Automatic summarization aims to extract important information from large amounts of textual data in order to create a shorter version of the original texts while preserving its information. Training traditional extractive summarization models relies
Temporal language grounding (TLG) aims to localize a video segment in an untrimmed video based on a natural language description. To alleviate the expensive cost of manual annotations for temporal boundary labels,we are dedicated to the weakly superv