نحن ندرس توليد ملخصات مبادرة مخلصة ومتسقة فعليا مع المقالات المعينة. يتم تقديم صياغة تعليمية متناقضة جديدة، والتي ترفف كل من الملخصات المرجعية، كبيانات تدريب إيجابية، وإنشائها تلقائيا ملخصات خاطئة، كبيانات تدريب سلبية، لتدريب أنظمة التلخيص التي تكون أفضل في التمييز بينهما. ونحن كذلك تصميم أربعة أنواع من الاستراتيجيات لإنشاء عينات سلبية، لتشبه الأخطاء التي تحدث عادة من قبل نماذج من أحدث نماذج، بارت وبيغاسوس، الموجودة في التعليقات التوضيحية البشرية الجديدة من الأخطاء الموجزة. تجارب على Xsum و CNN / Daily Mail تشير إلى أن إطار التعلم المتعاقل لدينا قوي عبر مجموعات البيانات والنماذج. ينتج باستمرار ملخصات واقعية أكثر من المقارنات القوية مع تصحيح الأخطاء بعد وإعادة التشغيل القائمة على الاستقبال، والتدريب غير المباشر، وفقا لتقييم الواقعية القائم على الجودة. صدى القضاة البشرية الملاحظة وتجد أن ملخصاتنا النموذجية تصحح المزيد من الأخطاء.
We study generating abstractive summaries that are faithful and factually consistent with the given articles. A novel contrastive learning formulation is presented, which leverages both reference summaries, as positive training data, and automatically generated erroneous summaries, as negative training data, to train summarization systems that are better at distinguishing between them. We further design four types of strategies for creating negative samples, to resemble errors made commonly by two state-of-the-art models, BART and PEGASUS, found in our new human annotations of summary errors. Experiments on XSum and CNN/Daily Mail show that our contrastive learning framework is robust across datasets and models. It consistently produces more factual summaries than strong comparisons with post error correction, entailment-based reranking, and unlikelihood training, according to QA-based factuality evaluation. Human judges echo the observation and find that our model summaries correct more errors.
المراجع المستخدمة
https://aclanthology.org/
على الرغم من التقدم الكبير في تلخيص الجماع العصبي، أظهرت الدراسات الحديثة أن النماذج الحالية عرضة لإنشاء ملخصات غير مخلصة للسياق الأصلي. لمعالجة المشكلة، نقوم بدراسة توليد واختيار مرشح النقيض كتقنية نطاقات ما بعد المعالجة النموذجية لتصحيح الهلوسة الخ
على عكس النص المنظم جيدا، مثل التقارير الإخبارية ومقالات الموسوعة، غالبا ما يأتي محتوى الحوار من محاورين أو أكثر، وتبادل المعلومات مع بعضها البعض. في مثل هذا السيناريو، يمكن أن يختلف موضوع المحادثة عند التقدم والمعلومات الأساسية لموضوع معين في كثير م
نماذج التلخيص الحديثة تولد بطلاقة للغاية ولكن في كثير من الأحيان مخرجات غير موثوق بها في كثير من الأحيان.هذه الدافع الطفرة من المقاييس التي تحاول قياس واقعية الملخصات التي تم إنشاؤها تلقائيا.نظرا لعدم وجود معايير مشتركة، لا يمكن مقارنة هذه المقاييس.ع
تستكشف هذه الورقة تأثير استخدام التعلم المتعدد التواجد لتلخيص الجماع في سياق كورسا التدريب الصغيرة.على وجه الخصوص، نحن ندمج أربع مهام مختلفة (تلخيص استخراجي، ونمذجة اللغة، والكشف عن المفهوم، والكشف عن الصياغة على حد سواء بشكل فردي ومزيج، بهدف تعزيز ا
دفع نجاح ترميزات ثنائية الاتجاه باستخدام نماذج لغة ملثم، مثل بيرت، في العديد من مهام معالجة اللغة الطبيعية، بباحثي المحاولة لإدماج هذه النماذج المدربة مسبقا في أنظمة الترجمة الآلية العصبية (NMT). ومع ذلك، فإن الأساليب المقترحة لإدماج النماذج المدربة