تهدف توليد الصياغة الموجهة إلى Exemplar (EGPG) إلى توليد جملة مستهدفة تتوافق مع أسلوب Exemplar المحدد أثناء توسيع نطاق معلومات المحتوى من الجملة المصدر. في هذه الورقة، نقترح طريقة جديدة بهدف تعلم تمثيل أفضل للنمط والمحتوى. تحفز هذه الطريقة بشكل أساسي النجاح الأخير للتعلم المقاوم للتناقض التي أثبتت قوتها في مهام استخراج ميزة غير مدفوعة. تتمثل الفكرة في تصميم خسائرتين متباينتين فيما يتعلق بالمحتوى والأسلوب من خلال النظر في خصائص المشكلة أثناء التدريب. إحدى الممتلكات هي أن الجملة المستهدفة تشترك في نفس المحتوى مع جملة المصدر، والخصائص الثانية هي أن الجملة المستهدفة تشارك نفس النمط مع Exemplar. يتم دمج هذين الخسائرتين للتناقض في نموذج فك التشفير العام. تثبت التجارب على مجموعة بيانات اثنين، وهي QQP-Pos و Paranmt، فعالية خسائرنا القاطعة المقترحة.
Exemplar-Guided Paraphrase Generation (EGPG) aims to generate a target sentence which conforms to the style of the given exemplar while encapsulating the content information of the source sentence. In this paper, we propose a new method with the goal of learning a better representation of the style and the content. This method is mainly motivated by the recent success of contrastive learning which has demonstrated its power in unsupervised feature extraction tasks. The idea is to design two contrastive losses with respect to the content and the style by considering two problem characteristics during training. One characteristic is that the target sentence shares the same content with the source sentence, and the second characteristic is that the target sentence shares the same style with the exemplar. These two contrastive losses are incorporated into the general encoder-decoder paradigm. Experiments on two datasets, namely QQP-Pos and ParaNMT, demonstrate the effectiveness of our proposed constrastive losses.
المراجع المستخدمة
https://aclanthology.org/
حققت النماذج التراجعية التلقائية واسعة النطاق نجاحا كبيرا في توليد استجابة الحوار، بمساعدة طبقات المحولات. ومع ذلك، فإن هذه النماذج لا تتعلم مساحة كامنة تمثيلية لتوزيع الجملة، مما يجعل من الصعب التحكم في الجيل. لقد حاولت الأعمال الحديثة على تعلم تمثي
تتضمن ترجمة الآلات العصبية السياق (NMT) معلومات سياقية من النصوص المحيطة بها، والتي يمكن أن تحسن جودة الترجمة من الترجمة الآلية على مستوى المستند. ركز العديد من الأعمال الموجودة على NMT على دراية السياق على تطوير هياكل نموذجية جديدة لإدماج سياقات إضا
تتمثل التعريف بإعادة الصياغة (PI)، وهي مهمة أساسية في معالجة اللغة الطبيعية، هي تحديد ما إذا كانت الجملتين تعبر عن نفس المعنى المماثل، وهي مشكلة تصنيف ثنائية. في الآونة الأخيرة، كانت النماذج اللغوية المدربة مسبقا بيرت هي خيارا شائعا لأطر نماذج PI الم
إعادة صياغة إعادة صياغة مهمة مهمة في معالجة اللغة الطبيعية. تركز الأشغال السابقة على توليد إعادة صياغة مستوى الجملة، مع تجاهل توليد إعادة صياغة مستوى المستند، وهي مهمة أكثر تحديا وقيمة. في هذه الورقة، نستكشف مهمة إعادة صياغة نص عن طريق الوثيقة لأول م
يعد عدم وجود بيانات تدريبية المسمى للميزات الجديدة مشكلة شائعة في أنظمة الحوار في العالم الحقيقي المتغيرة بسرعة.كحل، نقترح نموذج توليد إعادة صياغة متعددة اللغات يمكن استخدامه لإنشاء كلمات جديدة للميزة المستهدفة واللغة المستهدفة.يمكن استخدام الكلام ال