نقترح نهجا جديدا لتوليد متغيرات متعددة من الملخص المستهدف بمحتوى متنوع وأطوال متفاوتة، ثم يسجل واختيار تلك المقبولة وفقا لاحتياجات المستخدمين. قد تكافح الملخصات المحظورة المدربين على ملخصات مرجعية واحدة لإنتاج مخرجات تحقق خصائص مرغوبة متعددة، أي القبض على أهم المعلومات، كونها مخلصة للأصلية النحوية والطلاقة. في هذه الورقة، نقترح استراتيجية من نظامها التابعتين لتوليد مجموعة متنوعة من الملخصات المرشحة من النص المصدر في المرحلة الأولى، ثم يسجل واختيار تلك المقابلة في المرحلة الثانية. الأهم من ذلك، يعطي مولدنا سيطرة دقيقة على طول الملخص، وهو مناسب بشكل خاص عندما تكون المساحة محدودة. تم تصميم المحددين لدينا للتنبؤ بطول الملخص الأمثل ووضع التركيز بشكل خاص على الإخلاص للنص الأصلي. يمكن تدريب كلا المرحلتين بشكل فعال، وتحسينها وتقييمها. تشير تجاربنا على مجموعات بيانات التلخيص المعجمية إلى أن هذه النموذج يمكن أن تحقق أداء أحدث.
We propose a new approach to generate multiple variants of the target summary with diverse content and varying lengths, then score and select admissible ones according to users' needs. Abstractive summarizers trained on single reference summaries may struggle to produce outputs that achieve multiple desirable properties, i.e., capturing the most important information, being faithful to the original, grammatical and fluent. In this paper, we propose a two-staged strategy to generate a diverse set of candidate summaries from the source text in stage one, then score and select admissible ones in stage two. Importantly, our generator gives a precise control over the length of the summary, which is especially well-suited when space is limited. Our selectors are designed to predict the optimal summary length and put special emphasis on faithfulness to the original text. Both stages can be effectively trained, optimized and evaluated. Our experiments on benchmark summarization datasets suggest that this paradigm can achieve state-of-the-art performance.
References used
https://aclanthology.org/
We present a generic method to compute thefactual accuracy of a generated data summarywith minimal user effort. We look at the prob-lem as a fact-checking task to verify the nu-merical claims in the text. The verification al-gorithm assumes that the
The present paper summarizes an attempt we made to meet a shared task challenge on grounding machine-generated summaries of NBA matchups (https://github.com/ehudreiter/accuracySharedTask.git). In the first half, we discuss methods and in the second,
The plea to prevent or stop human rights violations and save the civilian population from an imminent danger, for a state or group of states to intervene in the internal affairs of another state without its consent, is not new. The first roots of thi
We propose using a multilabel probing task to assess the morphosyntactic representations of multilingual word embeddings. This tweak on canonical probing makes it easy to explore morphosyntactic representations, both holistically and at the level of
In the sixth edition of the WMT Biomedical Task, we addressed a total of eight language pairs, namely English/German, English/French, English/Spanish, English/Portuguese, English/Chinese, English/Russian, English/Italian, and English/Basque. Further,