عند إطلاق ملصقات ومعلومات على مستوى Annotator في مجموعات البيانات


الملخص بالعربية

تتضمن ممارسة شائعة في بناء مجموعات بيانات NLP، خاصة استخدام التعليقات التوضيحية من قبل الجمهور، الحصول على أحكام معلقية متعددة على نفس حالات البيانات، والتي يتم تسويتها بعد ذلك لإنتاج حقائق أو درجة أرضية واحدة، من خلال التصويت الأغلبية، المتوسط، أو الحكموبعدفي حين أن هذه النهج قد تكون مناسبة في مهام توضيحية معينة، تطل مثل هذه التجمعات على الطبيعة التي تم إنشاؤها اجتماعيا للتصورات الإنسانية التي تهدف الشروح عن المهام ذاتية نسبيا إلى الاستيلاء عليها.على وجه الخصوص، فإن الخلافات المنهجية بين المحن المعلقين بسبب خلفياتهم الاجتماعية والثقافية والتجارب العاشية غالبا ما يتم توعيتها من خلال هذه التجمعات.في هذه الورقة، نوضح تجريبيا أن تجميع الملصقات قد يعرض تحيزات تمثيلية من وجهات النظر الفردية والمجموعة.بناء على هذا النتيجة، نقترح مجموعة من توصيات لزيادة فائدة وشفافية مجموعات البيانات في حالات استخدام المصب.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث