تبسيط النص هو حقل متزايد مع العديد من التطبيقات المفيدة المحتملة.تتطلب خوارزميات تبسيط النص التدريب عموما الكثير من البيانات المشروحة، ومع ذلك لا توجد العديد من الشركات المناسبة لهذه المهمة.نقترح طريقة جديدة غير مخالفة لمحاذاة النص بناء على تضمين Doc2vec وخوارزمية محاذاة جديدة، قادرة على محاذاة النصوص على مستويات مختلفة.يوضح التقييم الأولي نتائج واعدة للنهج الجديد.استخدمنا النهج المطور الذي تم تطويره حديثا لإنشاء كوربلا متوازيا أحادية طيور أحادية جديدة تتألف من أعمال الفلاسفة الحديث الإنجليزي وإصداراتهم المبسطة المقابلة.
Text simplification is a growing field with many potential useful applications. Training text simplification algorithms generally requires a lot of annotated data, however there are not many corpora suitable for this task. We propose a new unsupervised method for aligning text based on Doc2Vec embeddings and a new alignment algorithm, capable of aligning texts at different levels. Initial evaluation shows promising results for the new approach. We used the newly developed approach to create a new monolingual parallel corpus composed of the works of English early modern philosophers and their corresponding simplified versions.
المراجع المستخدمة
https://aclanthology.org/
يسعى مركز الترجمة الظاهري الوطني (NVTC) إلى الحصول على أدوات تكنولوجيا اللغة البشرية (HLT) التي ستسهل مهمتها لتوفير ترجمات حرفية باللغة الإنجليزية لملفات الصوت والفيديو اللغوية.في المجال النصي، تستخدم NVTC ذاكرة الترجمة (TM) لبعض الوقت وقد أبلغت عن د
تعد خلط الكود (سم) ظاهرة شائعة في المجتمعات متعددة اللغات. يلعب CM دورا مهما في مجال التكنولوجيا والحقول الطبية حيث تكون المصطلحات في اللغة الأم وغير معروفة. سيساعد تحديد اللغة (غطاء) من بيانات CM حل مهام NLP مثل التدقيق الإملائي، والتعرف على الكيان
تستفيد نماذج اللغة الكبيرة من التدريب بكمية كبيرة من النص غير المسبق، مما يمنحهم قدرات توليد بطلاقة ومتنوعة بشكل متزايد.ومع ذلك، فإن استخدام هذه النماذج لتوليد النص الذي يأخذ في الاعتبار السمات المستهدفة، مثل قطبية المعالم أو مواضيع محددة، لا يزال يم
تحقق هذه الورقة في كيفية تصحيح أخطاء النص الصينية مع أنواع من الأحرف الخاطئة والمفقودة والمتغمة، وهي شائعة للمتحدثين الأصليين الصينيين.يمكن لمعظم النماذج الموجودة على الإطار الصحيح على الكشف عن تصحيح الأحرف الخاطئة، ولكن لا يمكن التعامل مع الأحرف الم
تشبه مهمة تبسيط نص الوثيقة على مستوى المستندات إلى صعوبة تقليل التعقيد الإضافي.نقدم مجموعة بيانات مجمعة حديثا من النصوص الألمانية، التي تم جمعها من مجلة Swiss News 20 Minuten (20 دقيقة) والتي تتكون من مقالات كاملة مقررة مع ملخصات مبسطة.علاوة على ذلك،