ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم نظم التلخيص عبر النوع الاجتماعي والعمر والسباق

Evaluation of Summarization Systems across Gender, Age, and Race

224   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم تقييم أنظمة التلخيص في نهاية المطاف من قبل المشردين البشري والاتصالات.عادة ما لا يعكس الحنجرة والمسلمون التركيبة السكانية للمستخدمين النهائيين، ولكن يتم تجنيدهم من خلال سكان الطلاب أو منصات الجماعة الجماعية مع التركيبة السكانية المنحرفة.لسيناريوهات التقييم المختلفة - التقييم ضد ملخصات الذهب وتصنيفات إنتاج النظام - نظهر أن التقييم الموجز حساس للسمات المحمية.هذا يمكن أن تنمية نظام التحيز والتقييم بشدة، مما يؤدي إلى بناء نماذج تلبي بعض المجموعات بدلا من غيرها.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

خلاص ندرة الدراسات الشاملة الحديثة بشأن مقاييس التقييم لتلخيص النص ونقص توافق الآراء بشأن بروتوكولات التقييم لا تزال تمنع التقدم المحرز. نحن نتطلع إلى أوجه القصور الموجودة لأساليب تقييم التلخيص على طول خمسة أبعاد: 1) نعيد تقييم 14 مقيط تقييم تلقائي ف ي أزياء شاملة ومتسقة باستخدام مخرجات نموذج تلخيص العصبي جنبا إلى جنب مع التوضيحات البشرية الخبراء والجمهور؛ 2) نحن معيارون باستمرار 23 نماذج تلخيص حديثة باستخدام مقاييس التقييم التلقائي المذكورة أعلاه؛ 3) نحن نكذب أكبر مجموعة من الملخصات الناتجة عن النماذج المدربة على مجموعة بيانات CNN / DailyMail الأخبار ومشاركتها في شكل موحد؛ 4) نحن نفرا ومشاركة مجموعة أدوات توفر واجهة برمجة تطبيقية قابلة للتوسيع وغير موحدة لتقييم نماذج تلخيص عبر مجموعة واسعة من المقاييس التلقائية؛ 5) نحن نكذب ومشاركة أكبر وأكثرها تنوعا، من حيث الأنواع النموذجية، وجمع الأحكام البشرية من الملخصات التي تم إنشاؤها النموذجية على مجموعة بيانات CNN / Daily Mail المشروحة من قبل كلا من قضاة الخبراء والعاملين بمصدر الحشد. نأمل أن يساعد هذا العمل في تعزيز بروتوكول تقييم أكثر اكتمالا لتلخيص النص وكذلك البحث المسبق في تطوير مقاييس التقييم التي ترتبط بأحكام الإنسان بشكل أفضل.
مجردة تم تحديد نوعية تقييم تقييم التلخيص من خلال حساب الارتباط بين درجاته والشروح البشرية عبر عدد كبير من الملخصات. في الوقت الحالي، من غير الواضح مدى دقة تقديرات الارتباط هذه، ولا عما إذا كانت الاختلافات بين علاقات المقاييس تعكس فرقا حقيقيا أو إذا ك ان من المقرر أن مجرد فرصة. في هذا العمل، نتعامل مع هاتين المشكلتين من خلال اقتراح طرق لحساب فترات الثقة وتشغيل اختبارات الفرضية للترشيح باستخدام أساليب إعادة التقييد والنساء التمهيد والتلبيل. بعد تقييم أي من الأساليب المقترحة هو الأنسب للتلخيص من خلال تجربتي المحاكاة، نحلل نتائج تطبيق هذه الأساليب إلى العديد من مقاييس التقييم التلقائي المختلفة عبر ثلاث مجموعات من التعليقات الشروحية البشرية. نجد أن فترات الثقة هي واسعة إلى حد ما، مما يدل على عدم اليقين العالي في موثوقية المقاييس التلقائية. علاوة على ذلك، على الرغم من أن العديد من المقاييس يفشل في إظهار التحسينات الإحصائية على Rouge، فإن اثنين من الأعمال الأخيرة، Qaeval و Bertscore، تفعل ذلك في بعض إعدادات التقييم
سهلت تقنية التكنولوجيا (MT) عن مهامنا اليومية من خلال توفير اختصارات يمكن الوصول إليها لجمع المعلومات والمعالجة والتواصل.ومع ذلك، يمكن أن تعاني من التحيزات التي تضر المستخدمين والمجتمع ككل.كحافظ جديد نسبيا للاستفسار، لا تزال دراسات التحيز بين الجنسين في MT تفتقر إلى التماسك.هذا المدافع عن إطار موحد لتخفيف البحوث المستقبلية.تحقيقا لهذه الغاية، نحن: 1) مراجعة النظرة بشكل خطير المفاهيم الحالية للتحيز في ضوء الأفكار النظرية من التخصصات ذات الصلة، 2) تلخص التحليلات السابقة التي تهدف إلى تقييم التحيز بين الجنسين في MT، III) مناقشة استراتيجيات التخفيف المقترحة حتى الآن، والرابع)نحو الاتجاهات المحتملة للعمل في المستقبل.
تعد أنظمة معالجة اللغة الطبيعية (NLP) في قلب العديد من أنظمة صنع القرار الآلي الحرجة التي تجعل توصيات حاسمة حول عالمنا في المستقبل.تم دراسة التحيز بين الجنسين في NLP جيدا باللغة الإنجليزية، لكنها كانت أقل دراستها بلغات أخرى.في هذه الورقة، تضم فريقا ب ينهم متحدثون 9 لغات - الصينية والإسبانية والإنجليزية والعربية والألمانية والفرنسية والفرصي والأوردو وولف - تقارير وتحليل قياسات التحيز بين الجنسين في ولاية ويكيبيديا كورسيا لهذه اللغات 9 لغات 9 لغات 9 لغات 9 لغات 9 لغات هذه.نقوم بتطوير ملحقات لحسابات متر راي حساسية على مستوى المهنة والجنس على مستوى كوربوس المصممة في الأصل للغة الإنجليزية وتطبيقها على 8 لغات أخرى، بما في ذلك اللغات التي لديها أسماء جنسانية من النوع الاجتماعي بما في ذلك كلمات المهنة الأنثوية والمذكر والمحايدة المختلفة.نناقش العمل في المستقبل من شأنه أن يستفيد بشكل كبير من منظور اللغويات الحاسوبية.
تختلف اللغات من حيث غياب أو وجود ميزات جنسانية، وعدد الفصول الجنسانية وما إذا كانت الميزات الجنسانية ملحوظ بشكل صريح.هذه الاختلافات الشاملة اللغوية يمكن أن تؤدي إلى الغموض التي يصعب حلها، خاصة بالنسبة لأنظمة MT على مستوى الجملة.إن تحديد الغموض وقرته لاحقا هو مهمة صعبة لا توجد حاليا أي موارد أو مجموعات تحدي محددة متاحة.في هذه الورقة، نقدم نوع الجنس، وهو تحدي إنجليزي - إيطالي يحدد يركز على حل الظواهر الجنسانية الطبيعية من خلال توفير علامات الجنسية على مستوى الكلمات على جانب المصدر الإنجليزي والترجمات البديلة الجنسية متعددة الجنسيات، عند الحاجة، على الهدف الإيطاليالجانب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا