Bisect: تعلم تقسيم وجمل إعادة صياغة مع Bitex


الملخص بالعربية

مهمة مهمة في تطبيقات NLP مثل تبسيط الجملة هي القدرة على اتخاذ جملة طويلة ومعقدة وتقسيمها إلى جمل أقصر، وإعادة صياغة حسب الضرورة. نقدم مجموعة بيانات جديدة ونموذج جديد لهذه المهمة الانقسام وإعادة صياغة. تتكون بياناتنا في Bisect التدريبية من 1 مليون جمل إنجليزية طويلة مقترن بأجمل الإنجليزية الأقصر والمعاواة بينها. نحصل على هؤلاء من خلال استخراج محاذاة جملة واحدة في فورانيا متوازية ثنائية اللغة ثم استخدام الترجمة الآلية لتحويل كلا الجانبين من الجور إلى نفس اللغة. يحتوي Bisect على أمثلة تدريبية ذات جودة أعلى من SPORTA SPORTA السابق وإعادة صياغتها، مع انشقاقات الجملة التي تتطلب تعديلات أكثر أهمية. نقوم بتصنيف أمثلة في Corpus لدينا واستخدام هذه الفئات في نموذج جديد يتيح لنا استهداف مناطق محددة من جملة المدخلات التي سيتم تقسيمها وتحريرها. علاوة على ذلك، نوضح أن النماذج المدربة على Bisect يمكن أن تؤدي مجموعة متنوعة واسعة من العمليات المنقسمة وتحسينها على النهج السابقة للحالة السابقة في التقييمات التلقائية والبشرية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث