تنطبق أهداف الاحتجاط بالأذرية المهمة مثل طرازات اللغة الملثمين أو التنبؤ الفاسد التالف على مجموعة واسعة من مهام الخبراء النووي (Raffel et al.، 2019)، ولكنها تفوقت من خلال أهداف محددة خاصة بمهام المهام مثل التنبؤ بنشاطات الفجوة المستخرجة عن التلخيص (Zhangوآخرون، 2020).نحن نقارن ثلاثة أهداف محددة محددة محددة مع المهمة الملحة التالفة التنبؤات الاحتمية في الدراسة التي تسيطر عليها.كما نقدم دراستنا إلى إعداد موارد منخفضة وضبط صفر، لفهم عدد أمثلة التدريب اللازمة من أجل إظهار الاحتجاج بخصوص الجودة دون فقدان الجودة.نظرا لأن نتائجنا تظهر أن الاحتجاج غير المرغوي المهمة يكفي لمعظم الحالات التي نأمل أن تقلل من الحاجة إلى الاحتجاج بمهمة المحاكمة الخاصة بالمهارات.نبلغ أيضا عن رقم أحدث جديد لمهمة التلخيص باستخدام نموذج T5 مع 11 مليار معلمة وعقوبة طول البحث الأمثل.
Task-agnostic pretraining objectives like masked language models or corrupted span prediction are applicable to a wide range of NLP downstream tasks (Raffel et al.,2019), but are outperformed by task-specific pretraining objectives like predicting extracted gap sentences on summarization (Zhang et al.,2020). We compare three summarization specific pretraining objectives with the task agnostic corrupted span prediction pretraining in controlled study. We also extend our study to a low resource and zero shot setup, to understand how many training examples are needed in order to ablate the task-specific pretraining without quality loss. Our results show that task-agnostic pretraining is sufficient for most cases which hopefully reduces the need for costly task-specific pretraining. We also report new state-of-the-art number for two summarization task using a T5 model with 11 billion parameters and an optimal beam search length penalty.
References used
https://aclanthology.org/
Pretraining techniques leveraging enormous datasets have driven recent advances in text summarization. While folk explanations suggest that knowledge transfer accounts for pretraining's benefits, little is known about why it works or what makes a pre
Abstract Direct decoding for task-oriented dialogue is known to suffer from the explaining-away effect, manifested in models that prefer short and generic responses. Here we argue for the use of Bayes' theorem to factorize the dialogue task into two
Automatic metrics are commonly used as the exclusive tool for declaring the superiority of one machine translation system's quality over another. The community choice of automatic metric guides research directions and industrial developments by decid
Abstract The scarcity of comprehensive up-to-date studies on evaluation metrics for text summarization and the lack of consensus regarding evaluation protocols continue to inhibit progress. We address the existing shortcomings of summarization evalua
This paper presents an automatic method to evaluate the naturalness of natural language generation in dialogue systems. While this task was previously rendered through expensive and time-consuming human labor, we present this novel task of automatic