أظهرت النماذج العصبية الكبيرة المدربة مسبقا تقدما ملحوظا في جيل النص. في هذه الورقة، نقترح إنشاء نص مكيف على البيانات المهيكلة (الجدول) وبادئة (النص المكتوب) من خلال الاستفادة من النماذج المدربة مسبقا. نقدم بيانات جديدة إلى نص البيانات، جدول مع نص مكتوب (TWT)، عن طريق إعادة تعيين مجموعات بيانات حالية: Totto و Tabract. يحتوي TWT على تصريحات واقعية ومنطقية مخلصة للبيانات المنظمة، تهدف إلى العمل كمعيار مفيد للجيل المسيطر عليه. بالمقارنة مع إعدادات المهام الحالية إلى النص، يكون TWT أكثر بديهية، يتحكم البادئة (عادة ما يوفرها المستخدم) موضوع النص الذي تم إنشاؤه. عادة ما يتم إخراج الأساليب الحالية النص الهلوسة غير المؤمنين على TWT. لذلك، نقوم بتصميم نهج رواية مع رؤية الاهتمام على أساس الجدول وآلية النسخ على الطاولة. تظهر النتائج التجريبية أن نهجنا يتفوق على الأساليب الحديثة بموجب مقاييس التقييم التلقائي والإنساني.
Large pre-trained neural models have recently shown remarkable progress in text generation. In this paper, we propose to generate text conditioned on the structured data (table) and a prefix (the written text) by leveraging the pre-trained models. We present a new data-to-text dataset, Table with Written Text (TWT), by repurposing two existing datasets: ToTTo and TabFact. TWT contains both factual and logical statements that are faithful to the structured data, aiming to serve as a useful benchmark for controlled text generation. Compared with existing data-to-text task settings, TWT is more intuitive, the prefix (usually provided by the user) controls the topic of the generated text. Existing methods usually output hallucinated text that is not faithful on TWT. Therefore, we design a novel approach with table-aware attention visibility and copy mechanism over the table. Experimental results show that our approach outperforms state-of-the-art methods under both automatic and human evaluation metrics.
المراجع المستخدمة
https://aclanthology.org/
أدت التطورات الأخيرة في الشبكات العصبية إلى التقدم في توليد البيانات إلى النص.ومع ذلك، فإن الافتقار إلى قدرة النماذج العصبية للسيطرة على هيكل الإخراج الذي تم إنشاؤه يمكن أن يحد في بعض تطبيقات العالم الحقيقي.في هذه الدراسة، نقترح إطارا جديدا لخطة الرو
حققت نماذج جيل الجدول إلى النص العصبي تقدما ملحوظا في صفيف المهام.ومع ذلك، نظرا لطبيعة البيانات الجائعة للبيانات النماذج العصبية، تعتمد عروضها بقوة على أمثلة تدريبية واسعة النطاق، مما يحد من تطبيقها في تطبيقات العالم الحقيقي.لمعالجة هذا، نقترح إطارا
تبنت النهج الحديثة التجريدية لجيل النص إلى النص بنية فك التشفير الناجحة للغاية أو المتغيرات منها.تولد هذه النماذج نصا يجيد (ولكن في كثير من الأحيان غير دقيقة) وإجراء سيئة للغاية عند تحديد المحتوى المناسب وطلبه بشكل متماسك.للتغلب على بعض هذه القضايا،
نقترح على التمييز المستقبلي لتوليد (Fudge)، وسيلة مرنة وحيونية للجيل المسيطر الذي يتم التحكم فيه.بالنظر إلى نموذج G موجه مسبقا لتوليد النص من توزيع الفائدة، يتيح الافعال تكييف السمة المرغوبة A (على سبيل المثال، الشكلية) أثناء الوصول إلى تسجيل الدخول
تحسن تبسيط النص قابلية قراءة الجمل من خلال العديد من تحويلات إعادة كتابة، مثل إعادة الصياغة المعجمية والحذف والتقشير. تعتبر أنظمة التبسيط الحالية في الغالب نماذج تسلسل التسلسل التي يتم تدريبها على نهاية إلى نهاية لأداء كل هذه العمليات في وقت واحد. وم