مجردة، نقدم استراتيجية تكبير الشلل الرنين على أساس إعادة الصياغة المعردة على مستوى العقوبة ومحاذاة الإحصاء التمييزي.يسمح نهجنا للتوسع على نطاق واسع في مجموعات البيانات الحالية أو الإبداع السريع لمجموعات البيانات الجديدة باستخدام كوربس صغير المنتج يدويا.نوضح نهجنا مع تجارب في مشروع بيركلي فرامينيت، وهي لغة تفهم لغة واسعة النطاق تمتد أكثر من عقدين من العمل البشري.مع أربعة أيام من جمع البيانات التدريبية لنموذج محاذاة تمتد ويوم واحد من حساب متوازي، فإننا نقوم تلقائيا بإنشاء وإطلاق سراح المجتمع 495،300 فريد من فريد من 495300 (الإطار، الزناد) في سياقات حكومية متنوعة، وهو توسع تقريبا 50 أضعاف فوق Framenet V1.7.يتم تقييم مجموعة البيانات الناتجة بشكل جوهري ومن خارجي بالتفصيل، وإظهار نتائج إيجابية على مهمة المصب.
Abstract We introduce a novel paraphrastic augmentation strategy based on sentence-level lexically constrained paraphrasing and discriminative span alignment. Our approach allows for the large-scale expansion of existing datasets or the rapid creation of new datasets using a small, manually produced seed corpus. We demonstrate our approach with experiments on the Berkeley FrameNet Project, a large-scale language understanding effort spanning more than two decades of human labor. With four days of training data collection for a span alignment model and one day of parallel compute, we automatically generate and release to the community 495,300 unique (Frame,Trigger) pairs in diverse sentential contexts, a roughly 50-fold expansion atop FrameNet v1.7. The resulting dataset is intrinsically and extrinsically evaluated in detail, showing positive results on a downstream task.
المراجع المستخدمة
https://aclanthology.org/
تم استكشاف نقل النمط على نطاق واسع في توليد اللغة الطبيعية مع استخراج Corpus غير الموازي بشكل مباشر أو غير مباشر فكرة من النمط من مصدر المجال المصدر والمستهدف. يعد القصور المشترك للنهج القائمة شرط التعليقات التوضيحية المشتركة في جميع الأبعاد الأسلوبي
تعظيم البيانات غير المزعجة (UDA) هي تقنية شبه بيئية تنطبق على فقدان الاتساق لمعاقبة الاختلافات بين تنبؤات النماذج على (أ) أمثلة ملحوظة (غير مسفحة)؛ و (ب) الأمثلة الواضحة المقابلة التي تم إنتاجها عبر تكبير البيانات. في حين أن UDA اكتسبت شعبية لتصنيف ا
نقترح هندسة محول الرسم البياني المتكرر للرسوم البيانية التلقائي (Rngtr) من أجل تحسين الرسوم البيانية التعسفية من خلال التطبيق العسكري لمحول الرسم البياني غير التلقائي إلى الرسم البياني وتطبيقه على تحليل التبعية النحوية.نوضح قوة وفعالية Rngtr على العد
وقد مكن التحول إلى النماذج العصبية في إحالة الجيل التعبير (REG) المزيد من النماذج الطبيعية، ولكن بتكلفة الترجمة الترجمة الشفوية.نجاد بأن دمج المنطق العملي في استنتاج نماذج التوليد غير المرجعية للسياق يمكن أن يتجاوز سمات REG التقليدية والعملية، لأن هذ
قياس درجة التشابه بين زوج من الجمل بلغات مختلفة هو المطلوبة الأساسية لأساليب تضمين الجملة متعددة اللغات. يتكون التنبؤ بدرجة التشابه من مهمتين فرعيتين، وهو تقييم التغلب غير المباشر واسترجاع الجملة متعددة اللغات. ومع ذلك، فإن الأساليب التقليدية قد تناو