تشبه مهمة تبسيط نص الوثيقة على مستوى المستندات إلى صعوبة تقليل التعقيد الإضافي.نقدم مجموعة بيانات مجمعة حديثا من النصوص الألمانية، التي تم جمعها من مجلة Swiss News 20 Minuten (20 دقيقة) والتي تتكون من مقالات كاملة مقررة مع ملخصات مبسطة.علاوة على ذلك،
نقدم تجارب على تبسيط النص التلقائي مع MBART MBART متعددة اللغات المسبدة مسبقا ونسخة معدلة منها أكثر صديقة للذاكرة، باستخدام كل من مجموعة البيانات الجديدة والتبسيط الموجودة Corpora.تتيح لنا تعديلات MBArt التدريب بتكلفة أقل في الذاكرة دون فقدان الكثير من الخسارة في الأداء، في الواقع، فإن MBART أصغر يحسن حتى النموذج القياسي في إعداد مع مستويات تبسيط متعددة.
نبلغ عن التجارب في تبسيط النص التلقائي (ATS) للألمانية مع مستويات تبسيط متعددة على طول الإطار الأوروبي المشترك المرجعي لغات (CEFR)، وتبسيط اللغة الألمانية القياسية إلى مستويات A1 و A2 و B1.لهذا الغرض، نحقق في استخدام تسميات المصدر وإحاطاء اللغة الألم
انية القياسية، مما يسمح لنا بتبسيط اللغة القياسية إلى مستوى CEFR محدد.نظرا لأن هذه الأساليب فعالة بشكل خاص في سيناريوهات الموارد المنخفضة، حيث يمكننا أن نتفوق على خط الأساس المحول القياسي.علاوة على ذلك، نقدم نسخ ملصقات، والتي نظهرها يمكن أن تساعد النموذج في إجراء تمييز بين الجمل التي تتطلب مزيدا من التعديلات والجمل التي يمكن نسخها كما هو.
يتم تقييم تبسيط النص على مستوى الجملة حاليا باستخدام المقاييس الآلية والتقييم البشري.للتقييم التلقائي، عادة ما يتم توظيف مزيج من المقاييس لتقييم الجوانب المختلفة من التبسيط.مستوى الصف Flesch-Kincaid (FKGL) هو مقياس واحد تم استخدامه بانتظام لقياس قابل
ية قراءة إخراج النظام.في هذه الورقة، نقول أن FKGL لا ينبغي استخدامها لتقييم أنظمة تبسيط النص.نحن نقدم التحليلات التجريبية على إخراج النظام الأخير الذي يظهر أن درجة FKGL يمكن التلاعب بها بسهولة لتحسين النتيجة بشكل كبير مع تأثير بسيط فقط على مقاييس آلية أخرى (بلو والساري).بدلا من استخدام FKGL، نقترح أن يتم استخدام إحصائيات المكونات، إلى جانب الآخرين، لتحليل posthoc لفهم سلوك النظام.
كانت التطورات في مجال تبسيط النص (TS) في المقام الأول ضمن تبسيط النحوية أو المعجمية.ومع ذلك، فقد تم تحديد التبسيط المفاهيمي سابقا كحقل آخر من TS له القدرة على تحسين فهم القراءة بشكل كبير.الخطوة الأولى للقياس التبسيط المفاهيمي هو تصنيف المفاهيم كمعقد
أو بسيط.تقترح ورقة البحث في البحث هذه تعريفا جديدا للتعقيد المفاهيمي إلى جانب نهج بسيط لتعلم الآلات التي تنفذ مهمة تصنيف ثنائية للتمييز بين المفاهيم البسيطة والمعقدة.يقترح أن تكون هذه الخطوة الأولى عند تطوير نماذج تبسيط نص جديدة تعمل على مستوى مفاهيمي.
تحسن تبسيط النص قابلية قراءة الجمل من خلال العديد من تحويلات إعادة كتابة، مثل إعادة الصياغة المعجمية والحذف والتقشير. تعتبر أنظمة التبسيط الحالية في الغالب نماذج تسلسل التسلسل التي يتم تدريبها على نهاية إلى نهاية لأداء كل هذه العمليات في وقت واحد. وم
ع ذلك، فإن هذه الأنظمة تحد من نفسها لحذف الكلمات ويمكنها بسهولة التكيف مع متطلبات الجماهير المستهدفة المختلفة. في هذه الورقة، نقترح نهجا مختلطا هجينا رواية يرفع القواعد ذات الدوافع اللغوية لتقسيم وحذفها، والأزواج مع نموذج إعادة الصياغة العصبية لإنتاج أنماط إعادة كتابة متنوعة. نقدم طريقة جديدة لتعزيز البيانات لتحسين القدرة على إعادة صياغة نموذجنا. من خلال التقييمات التلقائية والدليلية، نوضح أن نموذجنا المقترح يحدد حالة جديدة من بين المهمة، أو إعادة صياغة أكثر من النظم الحالية، ويمكن أن تتحكم في درجة كل عملية تبسيط مطبقة على نصوص الإدخال.
إن جودة أنظمة تبسيط النص الآلي بالكامل ليست جيدة بما يكفي للاستخدام في إعدادات العالم الحقيقي؛بدلا من ذلك، يتم استخدام التبسيط البشري.في هذه الورقة، ندرس كيفية تحسين تكلفة وجودة التبسيط البشري من خلال الاستفادة من الجماعة الجماعية.نقدم نهج الانصهار ا
لجملة في الرسم البياني لزيادة التبسيط البشري ونهج إعادة النشر لكل من تحديد المبسط عالية الجودة والسماح باستهداف التبسيط بمستويات متفاوتة من البساطة.باستخدام DataSet Newsela (XU et al.، 2015) نظهر تحسينات متسقة على الخبراء في مستويات تبسيط مختلفة وتجد أن تبسيط الانصهار الجملة الإضافية تسمح بإخراج أبسط من التبسيط البشري وحدها.
الكشف التلقائي عن معلومات المؤامرة الحرجة في مراجعات عناصر الوسائط يشكل تحديات فريدة لكل من الحوسبة الاجتماعية واللغويات الحسابية. في هذه الورقة، نقترح إلقاء مشكلة اكتشاف تحيز المفسد في الخطاب عبر الإنترنت مهمة تبسيط النص. نحن تخمين أنه بالنسبة لزوج
مستخدم العنصر، فإن مراجعة المستخدم الأكثر بساطة نتعلمه من ملخص عنصر أعلى احتمال تقديم المفسد. يشتمل نموذجنا العصبي على شبكة المحولات المتقدمة لتحتل شدة المفسد في تغريدات المستخدم. شيدنا مجموعة بيانات مستدامة مفلصة عالية الجودة كشط من تغريدات مراجعة غير مرغوبة وقترن بملخص العنوان وبيانات meta المستخرجة من مجال معين من الفيلم. إلى حد كبير، فإن نتائجنا الكمية والنوعية تزن في تأثير أداء وجود الكيان المسمى في ملخصات المؤامرة. أحصى ما يلاحظه على تقسيم وإعادة صياغة التراسل مع المعرفة المقطوعة من الإنجليزية في ويكيبيديا ومضربتها بشكل جيد في مجموعة بيانات الأفلام لدينا، فإن نموذجنا العصبي يظهر لتفوق كلا من خطوط طراز لغة وطيور أحادية الترجمة.