ترغب بنشر مسار تعليمي؟ اضغط هنا

عند إطلاق ملصقات ومعلومات على مستوى Annotator في مجموعات البيانات

On Releasing Annotator-Level Labels and Information in Datasets

227   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتضمن ممارسة شائعة في بناء مجموعات بيانات NLP، خاصة استخدام التعليقات التوضيحية من قبل الجمهور، الحصول على أحكام معلقية متعددة على نفس حالات البيانات، والتي يتم تسويتها بعد ذلك لإنتاج حقائق أو درجة أرضية واحدة، من خلال التصويت الأغلبية، المتوسط، أو الحكموبعدفي حين أن هذه النهج قد تكون مناسبة في مهام توضيحية معينة، تطل مثل هذه التجمعات على الطبيعة التي تم إنشاؤها اجتماعيا للتصورات الإنسانية التي تهدف الشروح عن المهام ذاتية نسبيا إلى الاستيلاء عليها.على وجه الخصوص، فإن الخلافات المنهجية بين المحن المعلقين بسبب خلفياتهم الاجتماعية والثقافية والتجارب العاشية غالبا ما يتم توعيتها من خلال هذه التجمعات.في هذه الورقة، نوضح تجريبيا أن تجميع الملصقات قد يعرض تحيزات تمثيلية من وجهات النظر الفردية والمجموعة.بناء على هذا النتيجة، نقترح مجموعة من توصيات لزيادة فائدة وشفافية مجموعات البيانات في حالات استخدام المصب.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في الوقت الحاضر، تستخدم منصات وسائل التواصل الاجتماعي نماذج التصنيف للتعامل مع خطاب الكراهية واللغة المسيئة.مشكلة هذه النماذج هي ضعفها للحيز.شكل منتشر من التحيز في خطاب الكراهية ومجموعات البيانات اللغوية المسيئة هو التحيز الهندي الناجم عن التصور النف سي للتعليق وتعقيد مهمة الشرح.في ورقتنا، نقوم بتطوير مجموعة من الأساليب لقياس التحيز العنافي في مجموعات البيانات اللغوية المسيئة وتحديد وجهات نظر مختلفة باللغة المسيئة.نحن نطبق هذه الأساليب إلى أربع مجموعات بيانات مختلفة للغة المسيئة.يدعم نهجنا المقترح عمليات التوضيحية لهذه مجموعات البيانات والبحوث المستقبلية التي تتناول وجهات نظر مختلفة حول تصور اللغة المسيئة.
لتسليط الضوء على تحديات تحقيق تنصيب تمثيل المجال النصي في إعداد غير محدد، في هذه الورقة نقوم بتحديد مجموعة تمثيلية من النماذج المطبقة بنجاح من مجال الصورة.نحن نقيم هذه النماذج على 6 مقاييس DEFENTANCE، وكذلك على مهام التصنيف المصب والمهماطوب.لتسهيل ال تقييم، نقترح اثنين من مجموعات البيانات الاصطناعية مع عوامل تابعة معروفة.تبرز تجاربنا الفجوة الموجودة في المجال النصي وتوضح أن بعض العناصر مثل التمثيل SPARSITY (كحيز حثي)، أو اقتران التمثيل مع وحدة فك الترميز يمكن أن يؤثر على deventanglement.إلى حد ما من معرفتنا، فإن عملنا هو المحاولة الأولى لتقاطع تحسس وتصوير تمثيل غير مدهش، ويوفر الإطار التجريبي ومجموعات البيانات لفحص التطورات المستقبلية في هذا الاتجاه.
للحصول على تضمين الجملة ذات الجودة العالية من نماذج اللغة المحددة مسبقا (PLMS)، يجب أن تكون تؤدي إما بزيادة أهداف محالمنة إضافية أو Finetuned على مجموعة كبيرة من أزواج النص المسمى.في حين أن النهج الأخير يتفوق عادة على السابق، إلا أنه يتطلب جهد إنساني كبير لتوليد مجموعات بيانات مناسبة من الحجم الكافي.في هذه الورقة، نظير على هذه الورقة، نظرا لأن PLMS يمكن أن يتم الاستفادة منها للحصول على مدينات جملة عالية الجودة دون الحاجة إلى البيانات المسمى أو التصميم أو التعديلات على الهدف المحدد: نحن نستخدم القدرات الاستهادة للمقطوعات الكبيرة والأداء عالية الأداء لتوليد مجموعات بيانات كاملةأزواج النص المسمى من نقطة الصفر، والتي نستخدمها بعد ذلك للحصول على نماذج أصغر بكثير وأكثر كفاءة.يتفوق نهجنا غير المعدل بالكامل بشكل كامل
كان التقييم البشري على مستوى المستند للترجمة الآلية (MT) يثير اهتماما بالمجتمع.ومع ذلك، يعرف القليل عن قضايا استخدام منهجيات مستوى المستند لتقييم جودة MT.في هذه المقالة، نقارن نتائج اتفاقية Insent-Annotator (IAA)، والجهد لتقييم الجودة في منهجيات مختل فة على مستوى المستندات، وقضية رسالة التسليم عند تقييم الأحكام خارج السياق.
جذبت الكشف التلقائي لمؤشر Myers-Briggs Type (MBTI) من منشورات قصيرة عناية ملحوظة في السنوات القليلة الماضية.أظهرت الدراسات الحديثة أن هذه مهمة صعبة للغاية، خاصة في بيانات تويتر شائعة الاستخدام.من الصعب أيضا الحصول على تسميات MBTI أيضا، حيث تتطلب الشر ح البشري علماء النفس المدربين، والطريقة التلقائية للحصول عليها من خلال استبيانات طويلة من قابلية الاستخدام المشكوك فيها للمهمة.في هذه الورقة، نقدم طريقة لجمع ملصقات MBTI موثوقة عبر أربعة أسئلة مختارة بعناية يمكن تطبيقها على أي نوع من البيانات النصية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا