تعمل السابقة على جيل إعادة صياغة صياغة يتم التحكم فيها بشكل كبير على بيانات إعادة صياغة مباشرة على نطاق واسع غير متوفرة بسهولة للعديد من اللغات والمجالات. في هذه الورقة، نأخذ هذا الاتجاه البحثي إلى أقصى الحدود والتحقيق فيما إذا كان من الممكن تعلم توليد الصياغة التي يتم التحكم فيها بموجبها مع بيانات غير صلبية. نقترح نموذج إعادة صياغة غير مدهش من غير المستنير عليه بناء على التشفير التلقائي الشرطي (VAE) يمكن أن تولد نصوص في بنية نصنية محددة. خاصة، نقوم بتصميم طريقة تعليمية من مرحلتين لتدريب النموذج بفعالية باستخدام البيانات غير الموازية. يتم تدريب VAE الشرطية على إعادة بناء جملة الإدخال وفقا للإدخال المحدد والهيكل النحامي. علاوة على ذلك، لتحسين قابلية التحكم في النحوية والاتساق الدلالي لشركة VAE الشرطية المدربة مسبقا، نحن نغتنمها باستخدام أهداف التعلم السيطرة على بناء الجملة وإعادة إعمار دورة إعادة إعمار، وتوظيف Gumbel-Softmax الجمع بين أهداف التعلم الجديدة هذه. توضح نتائج التجربة أن النموذج المقترح المدرب فقط على البيانات غير الموازية قادر على توليد صیر متنوعة مع بنية نصنية محددة. بالإضافة إلى ذلك، نحن نقوم بالتحقق من صحة فعالية طريقتنا لتوليد أمثلة خصومة النحوية على مهمة تحليل المعنويات.
Previous works on syntactically controlled paraphrase generation heavily rely on large-scale parallel paraphrase data that is not easily available for many languages and domains. In this paper, we take this research direction to the extreme and investigate whether it is possible to learn syntactically controlled paraphrase generation with nonparallel data. We propose a syntactically-informed unsupervised paraphrasing model based on conditional variational auto-encoder (VAE) which can generate texts in a specified syntactic structure. Particularly, we design a two-stage learning method to effectively train the model using non-parallel data. The conditional VAE is trained to reconstruct the input sentence according to the given input and its syntactic structure. Furthermore, to improve the syntactic controllability and semantic consistency of the pre-trained conditional VAE, we fine-tune it using syntax controlling and cycle reconstruction learning objectives, and employ Gumbel-Softmax to combine these new learning objectives. Experiment results demonstrate that the proposed model trained only on non-parallel data is capable of generating diverse paraphrases with specified syntactic structure. Additionally, we validate the effectiveness of our method for generating syntactically adversarial examples on the sentiment analysis task.
المراجع المستخدمة
https://aclanthology.org/
استفاد من إعادة صياغة الصياغة على نطاق واسع من التقدم الأخير في تصميم الأهداف التدريبية والبنية النموذجية. ومع ذلك، تركز الاستكشافات السابقة إلى حد كبير على الأساليب الخاضعة للإشراف، والتي تتطلب كمية كبيرة من البيانات المسمى ذات مكلفة لجمعها. لمعالجة
تعرف نوعية وكمية الجمل الموازية كبيانات تدريبية مهمة للغاية لبناء أنظمة الترجمة الآلية العصبية (NMT).ومع ذلك، فإن هذه الموارد غير متوفرة للعديد من أزواج لغة الموارد المنخفضة.تحتاج العديد من الطرق الحالية إلى إشراف قوي غير مناسب.على الرغم من أن عدة مح
نقدم تقنية جديدة لتوليد الصفر عن إعادة صياغة الصفر.المساهمة الرئيسية هي طراز إعادة صياغة متعددة اللغات من طرف تم تدريبه على استخدام كورسرا المتوازي المترجمة لتوليد الصياغة في المساحات المعنى "- استبدال طبقة SoftMax النهائية مع Adgeddings Word.يتيح هذ
تعظيم البيانات غير المزعجة (UDA) هي تقنية شبه بيئية تنطبق على فقدان الاتساق لمعاقبة الاختلافات بين تنبؤات النماذج على (أ) أمثلة ملحوظة (غير مسفحة)؛ و (ب) الأمثلة الواضحة المقابلة التي تم إنتاجها عبر تكبير البيانات. في حين أن UDA اكتسبت شعبية لتصنيف ا
يعد تدريب الاتساق غير الخاضع للتناسق طريقة للتعلم شبه الإشرافه يشجع الاتساق في التنبؤات النموذجية بين البيانات الأصلية والمعزز.للحصول على التعرف على الكيان المسمى (NER)، زيادة النهج الحالية تسلسل الإدخال مع استبدال الرمز المميز، بافتراض التعليقات الت