ترغب بنشر مسار تعليمي؟ اضغط هنا

Flesch-Kincaid ليس أداة تقييم تبسيط النص

Flesch-Kincaid is Not a Text Simplification Evaluation Metric

159   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم تقييم تبسيط النص على مستوى الجملة حاليا باستخدام المقاييس الآلية والتقييم البشري.للتقييم التلقائي، عادة ما يتم توظيف مزيج من المقاييس لتقييم الجوانب المختلفة من التبسيط.مستوى الصف Flesch-Kincaid (FKGL) هو مقياس واحد تم استخدامه بانتظام لقياس قابلية قراءة إخراج النظام.في هذه الورقة، نقول أن FKGL لا ينبغي استخدامها لتقييم أنظمة تبسيط النص.نحن نقدم التحليلات التجريبية على إخراج النظام الأخير الذي يظهر أن درجة FKGL يمكن التلاعب بها بسهولة لتحسين النتيجة بشكل كبير مع تأثير بسيط فقط على مقاييس آلية أخرى (بلو والساري).بدلا من استخدام FKGL، نقترح أن يتم استخدام إحصائيات المكونات، إلى جانب الآخرين، لتحليل posthoc لفهم سلوك النظام.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

إن جودة أنظمة تبسيط النص الآلي بالكامل ليست جيدة بما يكفي للاستخدام في إعدادات العالم الحقيقي؛بدلا من ذلك، يتم استخدام التبسيط البشري.في هذه الورقة، ندرس كيفية تحسين تكلفة وجودة التبسيط البشري من خلال الاستفادة من الجماعة الجماعية.نقدم نهج الانصهار ا لجملة في الرسم البياني لزيادة التبسيط البشري ونهج إعادة النشر لكل من تحديد المبسط عالية الجودة والسماح باستهداف التبسيط بمستويات متفاوتة من البساطة.باستخدام DataSet Newsela (XU et al.، 2015) نظهر تحسينات متسقة على الخبراء في مستويات تبسيط مختلفة وتجد أن تبسيط الانصهار الجملة الإضافية تسمح بإخراج أبسط من التبسيط البشري وحدها.
تبسيط النص هو تقنية قيمة.ومع ذلك، يقتصر البحث الحالي على تبسيط الجملة.في هذه الورقة، نحدد والتحقيق في مهمة جديدة من تبسيط نص المستندات على مستوى المستند، والتي تهدف إلى تبسيط وثيقة تتكون من جمل متعددة.بناء على مقالب ويكيبيديا، نقوم أولا ببناء مجموعة بيانات واسعة النطاق تسمى D-Wikipedia وأداء التحليل والتقييم البشري عليه لإظهار أن مجموعة البيانات موثوقة.بعد ذلك، نقترح مقياس تقييم تلقائي جديد يسمى D-SARI هو أكثر ملاءمة لمهمة تبسيط مستوى المستند.أخيرا، نقوم باختيار العديد من النماذج التمثيلية كطرازات أساسية لهذه المهمة وأداء التقييم التلقائي والتقييم البشري.نحن نحلل النتائج وأشرح أوجه القصور في النماذج الأساسية.
كانت التطورات في مجال تبسيط النص (TS) في المقام الأول ضمن تبسيط النحوية أو المعجمية.ومع ذلك، فقد تم تحديد التبسيط المفاهيمي سابقا كحقل آخر من TS له القدرة على تحسين فهم القراءة بشكل كبير.الخطوة الأولى للقياس التبسيط المفاهيمي هو تصنيف المفاهيم كمعقد أو بسيط.تقترح ورقة البحث في البحث هذه تعريفا جديدا للتعقيد المفاهيمي إلى جانب نهج بسيط لتعلم الآلات التي تنفذ مهمة تصنيف ثنائية للتمييز بين المفاهيم البسيطة والمعقدة.يقترح أن تكون هذه الخطوة الأولى عند تطوير نماذج تبسيط نص جديدة تعمل على مستوى مفاهيمي.
يتضمن تصنيف النص متعدد العلامات واسعة النطاق (LMTC) مهام مع مسافات تسمية هرمية، مثل التعيين التلقائي لرموز ICD-9 إلى ملخصات التفريغ.يتم تقييم أداء النماذج في الفن السابق مع تدابير الدقة القياسية والتذكر و F1 دون اعتبار للهيكل الهرمي الغني.في هذا العم ل، نقول بتقييم هرمي لتنبؤات نماذج LMTC العصبية.مع مثال على علم ICD-9 ontology، نصف مشكلة هيكلية في تمثيل مساحة الملصقات المهيكلة في الفنية السابقة، واقتراح تمثيل بديل بناء على عمق OnTology.نقترح مجموعة من مقاييس التقييم الهرمي باستخدام التمثيل القائم على العمق.قارن درجات التقييم من المقاييس المقترحة مع مقاييس تستخدم سابقا على نماذج LMTC السابقة لترميز ICD-9 في MIMIC-III.كما نقترح أيضا طرق البحث الأخرى التي تنطوي على التمثيل الترطاني المقترح.
تم اقتراح نماذج إتمام المعرفة الزمنية المختلفة (KG) في الأدب الحديث. تحتوي النماذج عادة على جزأين، وهي طبقة تضمين زمنية ووظيفة نتيجة مشتقة من نهج النمذجة الثابتة الحالية. نظرا لأن النهج تختلف عدة أبعاد، بما في ذلك وظائف النتيجة المختلفة واستراتيجيات التدريب، فإن المساهمات الفردية في تقنيات التضمين الزمنية المختلفة لنموذج الأداء ليست واضحة دائما. في هذا العمل، ندرس بشكل منهجي ستة مناهج تضمين الزمنية وقياس أدائها تجريبيا عبر مجموعة واسعة من التكوينات مع حوالي 3000 تجربة و 13159 ساعة GPU. نقوم بتصنيف الأشرطة الزمنية إلى فئتين: (1) embeddings timestamp و (2) تضمين كيان تعتمد على الوقت. على الرغم من الاعتقاد المشترك بأن الأخير أكثر تعبيرية، تظهر دراسة تجريبية واسعة النطاق أن تضمين الطابع الزمني يمكن أن تحقق أداء على قدم المساواة أو أفضل مع المعلمات أقل بكثير. علاوة على ذلك، نجد أنه عند التدريب بشكل مناسب، غالبا ما تتقلص فروق الأداء النسبية بين مختلف الأشرطة الزمنية وأحيانا حتى عكسها عند مقارنتها بالنتائج السابقة. على سبيل المثال، يمكن أن تتفوق TTRANSE (CIRING)، واحدة من نماذج KG الزمنية الأولى، الفضلات الأخرى في مجال بيانات ICEWS. لتعزيز المزيد من الأبحاث، نحن نقدم أول إطار موحد مفتوح المصدر لنماذج إكمال KG الزمنية مع توصيف كامل، حيث يمكن الجمع بين المدينين الزمني ووظائف النتيجة ووظائف الخسائر والدعوانات والنمذجة الصريحة للعلاقات المتبادلة بشكل تعسفي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا