يحقق النماذج المحددة ذات الأهداف الإشراف ذاتية الإشراف على النصوص الكبيرة على تحقيق أداء حديثة على مهام تلخيص النص الإنجليزية. ومع ذلك، فإن هذه النماذج عادة ما يتم ضبطها على مئات الآلاف من نقاط البيانات، ومتطلبات غير قابلة للتنفيذ عند تطبيق تلخيص لمجالات مخصصة جديدة. في هذا العمل، نقدم طريقة جديدة ومتعمول، تسمى Wikitransfer، للحصول على نماذج مطاطية دقيقة مسبقا للتلخيص بطريقة غير منشأة، خاصة بموجب البيانات. Wikitransfer Ground-Descrees نماذج مسبقا على الملخصات الزائفة، التي تم إنتاجها من بيانات Wikipedia العامة، والتي تحتوي على خصائص DataSet المستهدفة، مثل طول ومستوى التجريد من الملخصات المرغوبة. حقق نماذج Wikitransfer أداء موجات خارجي من بين الفن، وهو أداء التلخيص المبشط عن الصفر على مجموعة بيانات CNN-Dailymail وإظهار فعالية نهجنا على ثلاث مجموعات بيانات متنوعة إضافية. هذه النماذج هي أكثر قوة للبيانات الصاخبة وكذلك تحقيق أداء أقل أو قابلة للمقارنة قليلا باستخدام 10 و 100 أمثلة تدريبية عند مقارنة بنقل القليل من بيانات الملخصات الأخرى. لتعزيز الأداء، نؤدي إلى زيادة تكبير البيانات عبر الترجمة المستديرة الرحلة وكذلك إدخال مصطلح تنظيمي لتحسين تحويل القليل من الرصاص. لفهم دور جوانب البيانات في أداء النقل ونوعية ملخصات الإخراج الناتجة، فإننا ندرس تأثير مكونات مكونات بيانات الطاقة الدقيقة الخاصة بنا وتحليل الأداء القليل من الأداء باستخدام التقييم التلقائي والبشري.
Models pretrained with self-supervised objectives on large text corpora achieve state-of-the-art performance on English text summarization tasks. However, these models are typically fine-tuned on hundreds of thousands of data points, an infeasible requirement when applying summarization to new, niche domains. In this work, we introduce a novel and generalizable method, called WikiTransfer, for fine-tuning pretrained models for summarization in an unsupervised, dataset-specific manner. WikiTransfer fine-tunes pretrained models on pseudo-summaries, produced from generic Wikipedia data, which contain characteristics of the target dataset, such as the length and level of abstraction of the desired summaries. WikiTransfer models achieve state-of-the-art, zero-shot abstractive summarization performance on the CNN-DailyMail dataset and demonstrate the effectiveness of our approach on three additional diverse datasets. These models are more robust to noisy data and also achieve better or comparable few-shot performance using 10 and 100 training examples when compared to few-shot transfer from other summarization datasets. To further boost performance, we employ data augmentation via round-trip translation as well as introduce a regularization term for improved few-shot transfer. To understand the role of dataset aspects in transfer performance and the quality of the resulting output summaries, we further study the effect of the components of our unsupervised fine-tuning data and analyze few-shot performance using both automatic and human evaluation.
References used
https://aclanthology.org/
Supplementary Training on Intermediate Labeled-data Tasks (STILT) is a widely applied technique, which first fine-tunes the pretrained language models on an intermediate task before on the target task of interest. While STILT is able to further impro
Neural topic models can augment or replace bag-of-words inputs with the learned representations of deep pre-trained transformer-based word prediction models. One added benefit when using representations from multilingual models is that they facilitat
Data-to-text (D2T) generation in the biomedical domain is a promising - yet mostly unexplored - field of research. Here, we apply neural models for D2T generation to a real-world dataset consisting of package leaflets of European medicines. We show t
While multilingual pretrained language models (LMs) fine-tuned on a single language have shown substantial cross-lingual task transfer capabilities, there is still a wide performance gap in semantic parsing tasks when target language supervision is a
This paper explores three simple data manipulation techniques (synthesis, augmentation, curriculum) for improving abstractive summarization models without the need for any additional data. We introduce a method of data synthesis with paraphrasing, a