مجردة، نقدم استراتيجية تكبير الشلل الرنين على أساس إعادة الصياغة المعردة على مستوى العقوبة ومحاذاة الإحصاء التمييزي.يسمح نهجنا للتوسع على نطاق واسع في مجموعات البيانات الحالية أو الإبداع السريع لمجموعات البيانات الجديدة باستخدام كوربس صغير المنتج يدويا.نوضح نهجنا مع تجارب في مشروع بيركلي فرامينيت، وهي لغة تفهم لغة واسعة النطاق تمتد أكثر من عقدين من العمل البشري.مع أربعة أيام من جمع البيانات التدريبية لنموذج محاذاة تمتد ويوم واحد من حساب متوازي، فإننا نقوم تلقائيا بإنشاء وإطلاق سراح المجتمع 495،300 فريد من فريد من 495300 (الإطار، الزناد) في سياقات حكومية متنوعة، وهو توسع تقريبا 50 أضعاف فوق Framenet V1.7.يتم تقييم مجموعة البيانات الناتجة بشكل جوهري ومن خارجي بالتفصيل، وإظهار نتائج إيجابية على مهمة المصب.
Abstract We introduce a novel paraphrastic augmentation strategy based on sentence-level lexically constrained paraphrasing and discriminative span alignment. Our approach allows for the large-scale expansion of existing datasets or the rapid creation of new datasets using a small, manually produced seed corpus. We demonstrate our approach with experiments on the Berkeley FrameNet Project, a large-scale language understanding effort spanning more than two decades of human labor. With four days of training data collection for a span alignment model and one day of parallel compute, we automatically generate and release to the community 495,300 unique (Frame,Trigger) pairs in diverse sentential contexts, a roughly 50-fold expansion atop FrameNet v1.7. The resulting dataset is intrinsically and extrinsically evaluated in detail, showing positive results on a downstream task.
References used
https://aclanthology.org/
Style transfer has been widely explored in natural language generation with non-parallel corpus by directly or indirectly extracting a notion of style from source and target domain corpus. A common shortcoming of existing approaches is the prerequisi
Unsupervised Data Augmentation (UDA) is a semisupervised technique that applies a consistency loss to penalize differences between a model's predictions on (a) observed (unlabeled) examples; and (b) corresponding noised' examples produced via data au
We propose the Recursive Non-autoregressive Graph-to-Graph Transformer architecture (RNGTr) for the iterative refinement of arbitrary graphs through the recursive application of a non-autoregressive Graph-to-Graph Transformer and apply it to syntacti
The shift to neural models in Referring Expression Generation (REG) has enabled more natural set-ups, but at the cost of interpretability. We argue that integrating pragmatic reasoning into the inference of context-agnostic generation models could re
Measuring the similarity score between a pair of sentences in different languages is the essential requisite for multilingual sentence embedding methods. Predicting the similarity score consists of two sub-tasks, which are monolingual similarity eval