لبناء أنظمة التبسيط الآلي، وهي كورسا من الجمل المعقدة وإصداراتها المبسطة هي الخطوة الأولى لفهم تعقيد الجملة وتمكين تطوير أنظمة تبسيط النص التلقائي.نقدم مجموعة تبسيط الأردية المعجمية والمبسلة بموجبها بتحليل مفصل لعمليات التبسيط المختلفة والتقييم البشري لجودة Corpus.لدينا أيضا تحليل شريونا باستخدام تدابير قابلية لقراءة النص وتقديم مقارنة بين الشركات الأصلية المعجمية والمبسطة بسيطة ومبسرة.بالإضافة إلى ذلك، قارنا كوربوس لدينا مع شركة تبسيط موجودة أخرى من خلال بناء أنظمة تبسيط وتقييم هذه الأنظمة باستخدام درجات بلو وسري.يحقق نظامنا أعلى درجة بلو ونتيجة ساري مقارنة بالمقارنة مع الأنظمة الأخرى.ونحن نطلق سرورا تبسيطنا لصالح مجتمع البحث.
To build automated simplification systems, corpora of complex sentences and their simplified versions is the first step to understand sentence complexity and enable the development of automatic text simplification systems. We present a lexical and syntactically simplified Urdu simplification corpus with a detailed analysis of the various simplification operations and human evaluation of corpus quality. We further analyze our corpora using text readability measures and present a comparison of the original, lexical simplified and syntactically simplified corpora. In addition, we compare our corpus with other existing simplification corpora by building simplification systems and evaluating these systems using BLEU and SARI scores. Our system achieves the highest BLEU score and comparable SARI score in comparison to other systems. We release our simplification corpora for the benefit of the research community.
المراجع المستخدمة
https://aclanthology.org/
تصف هذه الورقة Simplener، وهو نموذج تم تطويره لمهمة تبسيط الجملة في GEM-2021.نظامنا عبارة عن بنية محولات SEQ2SEQ أحادية مونولجة تستخدم الرموز المراقبة معلقة مسبقا إلى البيانات، مما يسمح للنموذج بتشكيل التبسيط الذي تم إنشاؤه وفقا للسمات التي تريدها ال
أصبح أكبر انفجار أفضل في عدد المعلمات في الشبكات العصبية العميقة جعلته صعبة بشكل متزايد لجعل الشبكات الحديثة التي يمكن الوصول إليها في البيئات المقيدة لحسابها. أخذت تقنيات ضغط الأهمية المتجددة كوسيلة لسد الفجوة. ومع ذلك، فإن تقييم المفاضلات المتكبدة
إن جودة أنظمة تبسيط النص الآلي بالكامل ليست جيدة بما يكفي للاستخدام في إعدادات العالم الحقيقي؛بدلا من ذلك، يتم استخدام التبسيط البشري.في هذه الورقة، ندرس كيفية تحسين تكلفة وجودة التبسيط البشري من خلال الاستفادة من الجماعة الجماعية.نقدم نهج الانصهار ا
في هذه الورقة، نطور Sindhi معجم شخصي باستخدام دمج الموارد الإنجليزية القائمة: NRC Lexicon، قائمة كلمات الرأي، Sentiwordnet، Sindhi-English Dictionary، وجمع معدلات Sindhi.يتم تعيين درجة المشاعر الإيجابية أو السلبية لكل كلمة sindhi رأي.بعد ذلك، نحدد تغ
تعتمد نماذج التلخيص المبخرية للحديث عن الفن بشكل عام على بيانات مسامحة واسعة النطاق، مما أدنى من قدرة تعميمها على المجالات التي لا تتوفر فيها هذه البيانات. في هذه الورقة، نقدم دراسة لتكييف المجال لمهمة تلخيص الجماع عبر ست مجالات مستهدفة متنوعة في إعد