جذب إنشاء نص طويل مشروط وفقا لنص الإدخال القصير مؤخرا المزيد والمزيد من جهود البحثية. تركز معظم الأساليب الموجودة على إدخال معرفة إضافية لاستكمال نص الإدخال القصير، ولكن تجاهل مسألة الاتساق من النصوص التي تم إنشاؤها. لمعالجة مشكلة البحث المذكورة أعلاه، تقترح هذه الورقة نهجا جديدا على مرحلتين لتوليد نص طويل متماسك. خاصة، نقوم أولا ببناء مسار مستوى المستند لكل نص إخراج مع كل جملة تضمين عقدة، ويقترح خريطة تنظيم ذاتية المنقحة (SOM) عن العقد مماثلة لعائلة من مسارات مستوى المستندات لبناء الموجهة الرسم البياني الدلالي. بعد ذلك، يقترح ثلاث طرق محاذاة منصرا فوقها لاستخراج الحد الأقصى لمسارات المطابقة أو الأخبار. تعتبر هذه المجموعة الدراسية الموجهة التي يتم توجيهها بشكل جيد محتوى إضافي ولكنه ذي صلة بنص المدخلات القصيرة، ثم يتم فك تشفيره بواسطة النموذج المستخدم المدرب مسبقا لتوليد نص طويل متماسك. تم إجراء تجارب واسعة على ثلاث مجموعات بيانات حقيقية، وتظهرت النتائج الواعدة أن النهج المقترح متفوقا على النهج التي من بين الفنون. عدد من معايير التقييم.
Generating long text conditionally depending on the short input text has recently attracted more and more research efforts. Most existing approaches focus more on introducing extra knowledge to supplement the short input text, but ignore the coherence issue of the generated texts. To address aforementioned research issue, this paper proposes a novel two-stage approach to generate coherent long text. Particularly, we first build a document-level path for each output text with each sentence embedding as its node, and a revised self-organising map (SOM) is proposed to cluster similar nodes of a family of document-level paths to construct the directed semantic graph. Then, three subgraph alignment methods are proposed to extract the maximum matching paths or subgraphs. These directed subgraphs are considered to well preserve extra but relevant content to the short input text, and then they are decoded by the employed pre-trained model to generate coherent long text. Extensive experiments have been performed on three real-world datasets, and the promising results demonstrate that the proposed approach is superior to the state-of-the-art approaches w.r.t. a number of evaluation criteria.
المراجع المستخدمة
https://aclanthology.org/
AM تحليل التبعية هي طريقة لتحليل الرسم البياني الدلالي العصبي الذي يستغل مبدأ التركيبية.على الرغم من أن محلل التبعية، فقد تبين أن محلل التبعية سريعة ودقيقة عبر العديد من الرسوم البيانية، فإنها تتطلب عبائيات صريحة لهياكل الأشجار التركيبية للتدريب.في ا
تقدم هذه الورقة أول دراسة حول استخدام نماذج اللغة المدربة مسبقا على نطاق واسع للجيل الآلي من الرسم البياني الصخم على مستوى الحدث للحصول على مستند. على الرغم من النجاح الهائل لأساليب ما قبل التدريب العصبي في مهام NLP، لم يتم استكشاف إمكاناتها للمنطق ا
النموذج المهيمن للتحلل الدلالي في السنوات الأخيرة هو صياغة تحليل كمركز تسلسل إلى تسلسل، وتوليد تنبؤات مع فك تراجع التسلسل التلقائي.في هذا العمل، نستكشف نموذجا بديلا.نقوم بصياغة تحليل دلالي كهامة تحليل التبعية، وتطبيق تقنيات فك التشفير المستندة إلى ال
تلقت تصنيف النص الإشراف ضعيف اهتماما كبيرا في السنوات الأخيرة لأنه يمكن أن يخفف من العبء الثقيل في التخلص من البيانات الضخمة. من بينها، الأساليب التي يحركها الكلمات الرئيسية هي السائدة حيث يتم استغلال الكلمات الرئيسية التي توفرها المستخدم لتوليد ملصق
تم تطبيق الشبكات التنافسية الرسمية (GCNS) مؤخرا لتصنيف النص وإنتاج أداء ممتاز. ومع ذلك، فإن الأساليب القائمة على GCN القائمة لا تتحمل بنية دلالة كامنة واضحة للمستندات، مما يجعل التمثيلات المستفادة أقل فعالية ويصعب تفسيرها. كما أنها تتجاوز الطبيعة، وب