إعادة صياغة إعادة صياغة مهمة مهمة في معالجة اللغة الطبيعية. تركز الأشغال السابقة على توليد إعادة صياغة مستوى الجملة، مع تجاهل توليد إعادة صياغة مستوى المستند، وهي مهمة أكثر تحديا وقيمة. في هذه الورقة، نستكشف مهمة إعادة صياغة نص عن طريق الوثيقة لأول مرة والتركيز على التنوع بين الجملة من خلال النظر في إعادة كتابة الجملة وإعادة ترتيبها. نقترح Corpg (توليد إعادة صياغة البحث عن النصوص الموجهة)، والتي تتمتع بالطرازات الرسم البياني Gru لتشفير الرسم البياني لعلاقة الاتساق والحصول على تمثيل مدرك التماسك لكل جملة، والتي يمكن استخدامها لإعادة ترتيب جمل الإدخال المتعددة (المحورة). نحن نقوم بإنشاء مجموعة بيانات صياغة على مستوى الوثيقة Pseudo لتدريب Corpg. تظهر نتائج التقييم التلقائي أن Corpg تفوقت على العديد من النماذج الأساسية القوية على درجات Bertscore وتنوعها. يوضح التقييم البشري أيضا أن نموذجنا يمكن أن يولد إعادة صياغة المستندات بمزيد من التنوع والحفاظ الدلالي.
Paraphrase generation is an important task in natural language processing. Previous works focus on sentence-level paraphrase generation, while ignoring document-level paraphrase generation, which is a more challenging and valuable task. In this paper, we explore the task of document-level paraphrase generation for the first time and focus on the inter-sentence diversity by considering sentence rewriting and reordering. We propose CoRPG (Coherence Relationship guided Paraphrase Generation), which leverages graph GRU to encode the coherence relationship graph and get the coherence-aware representation for each sentence, which can be used for re-arranging the multiple (possibly modified) input sentences. We create a pseudo document-level paraphrase dataset for training CoRPG. Automatic evaluation results show CoRPG outperforms several strong baseline models on the BERTScore and diversity scores. Human evaluation also shows our model can generate document paraphrase with more diversity and semantic preservation.
References used
https://aclanthology.org/
We propose to control paraphrase generation through carefully chosen target syntactic structures to generate more proper and higher quality paraphrases. Our model, AESOP, leverages a pretrained language model and adds deliberately chosen syntactical
Exemplar-Guided Paraphrase Generation (EGPG) aims to generate a target sentence which conforms to the style of the given exemplar while encapsulating the content information of the source sentence. In this paper, we propose a new method with the goal
In this paper, we investigate the Domain Generalization (DG) problem for supervised Paraphrase Identification (PI). We observe that the performance of existing PI models deteriorates dramatically when tested in an out-of-distribution (OOD) domain. We
This paper focuses on paraphrase generation,which is a widely studied natural language generation task in NLP. With the development of neural models, paraphrase generation research has exhibited a gradual shift to neural methods in the recent years.
Paraphrase identification (PI), a fundamental task in natural language processing, is to identify whether two sentences express the same or similar meaning, which is a binary classification problem. Recently, BERT-like pre-trained language models hav