ترغب بنشر مسار تعليمي؟ اضغط هنا

إعادة النظر في خلط Annotator حول اللغة العنصرية: الضوضاء أو الإشارة؟

Reconsidering Annotator Disagreement about Racist Language: Noise or Signal?

296   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف وفرة العمل المنهجي إلى اكتشاف اللغة البغيضة والعنصرية في النص. ومع ذلك، تعوق هذه الأدوات عن مشاكل مثل اتفاقية معلقية منخفضة وتبقى غير متصل إلى حد كبير من العمل النظري في العرق والعنصرية في العلوم الاجتماعية. باستخدام التعليقات التوضيحية من 5188 تغريدة من 291 Annwotators، نحقق في كيفية تختلف تصورات العنصرية في التغريدات في تغريدات Annotator عن الهوية العنصرية واثنين من أهم ميزات التغريدات: الكلمات الرئيسية ذات الصلة والمواضيع الكامنة المحددة من خلال نمذجة الموضوع الهيكلية. نحن نقدم ملخصا وصفيا لبياناتنا وتقدير سلسلة من النماذج الخطية المعممة لتحديد ما إذا كانت الهوية العنصرية المعجلية و 12 مواضيع كامنة، وحدنا أو مجتمعة، شرح الطريقة التي تم تفاحها المشاعر العنصري، صافي الخصائص المعلقية ذات الصلة وميزات سقسقة. تظهر نتائجنا أن المعلقين الأبيض والأبيض غير البيض يحملون اختلافات كبيرة في التصنيفات عند قراءة تغريدات مع ارتفاع الموضوعات المعينة والمشاهية بعصري. نستنتج من خلال الإشارة إلى كيفية الاستفادة من العمل المنهجي في المستقبل على نتائجنا ومزيد من إدراج نظرية العلوم الاجتماعية في التحليلات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم تحسين الحالة المخفية (HSO)، وهي طريقة قائمة على التدرج لتحسين أداء نماذج لغة المحولات في وقت الاستدلال.على غرار التقييم الديناميكي (Krause et al.، 2018)، يقوم HSO بتحسين التدرج على احتمال تسجيل الدخول يعين نموذج اللغة لنص التقييم، ولكنه يستخدمه لتحديث الدول المخففة المخزنة مؤقتا بدلا من المعلمات النموذجية.نقوم باختبار HSO مع نماذج لغة محول XL و GPT-2، وإيجاد تحسن على مجموعات بيانات Wikitext-103 و PG-19 من حيث الحيرة، خاصة عند تقييم نموذج خارج توزيع التدريب الخاص به.نحن نوضح أيضا إمكانية تطبيق المصب من خلال إظهار المكاسب في إعداد تقييم القليل من القليل من القليل من القليل من الطوابق المتقدما مؤخرا، مرة أخرى دون أي معلمات إضافية أو بيانات تدريبية.
التعلم الإشرافه يفترض أن ملصق الحقيقة الأرض موجود.ومع ذلك، فإن موثوقية هذه الحقيقة الأرضية تعتمد على المنشآت البشرية، التي لا توافق في كثير من الأحيان.وقد أظهر العمل السابق أن هذا الخلاف يمكن أن يكون مفيدا في نماذج التدريب.نقترح طريقة جديدة لدمج هذا الخلاف كمعلومات: بالإضافة إلى حساب الأخطاء القياسي، نستخدم التسميات الناعمة (أي توزيعات الاحتمالات على الملصقات Annotator) كملقمة مساعدة في شبكة عصبية متعددة المهام.نقيس الاختلاف بين التنبؤات والملصقات الناعمة المستهدفة مع العديد من وظائف الخسائر وتقييم النماذج على مهام NLP المختلفة.نجد أن المهمة الإضافية للتنبؤ بالعلامة الناعمة تقلل من عقوبة الأخطاء بشأن الكيانات الغامضة، وبالتالي تخفف من التجول.يحسن بشكل كبير الأداء عبر المهام، بما يتجاوز النهج القياسي والعمل السابق.
الميمات هي مجموعات من النص والصور التي غالبا ما تكون روح الدعابة في الطبيعة.ولكن، قد لا يكون هذا هو الحال دائما، وقد تصور مجموعات معينة من النصوص والصور الكراهية، يشار إليها باسم الميمات البغيضة.يقدم هذا العمل خط أنابيب متعدد الوسائط يأخذ كل من الميز ات المرئية والنصية من الميمات إلى (1) تحديد الفئة المحمية (على سبيل المثال، الجنس، الجنس وما إلى ذلك) التي هاجمت؛و (2) اكتشاف نوع الهجوم (E.G. ازدراء، Slurs وما إلى ذلك).يستخدم خط أنابيبنا تمثيلا مرئيا ومرئيا تدريبا مسبقا مسبقا، متبوعا بتصنيف الانحدار اللوجستي البسيط.نحن نوظف خط أنابيبنا على مجموعة بيانات تحدي الميمات البغيضة مع ملصقات إضافية تم إنشاؤها حديثا عن الفئة المحمية ونوع الهجوم.يحقق أفضل نموذج لدينا AUROC من 0.96 لتحديد الفئة المحمية، و 0.97 للكشف عن نوع الهجوم.نطلق سرد علاماتنا في https://github.com/harisbinzia/hatefulmemes
أظهرت LMS المدربة مسبقا أداء مثير للإعجاب على مهام NLP المصب، لكننا لم ننشئ بعد فهم واضح للتطور عندما يتعلق الأمر بمعالجة المعلومات والاحتفاظ بها وتطبيقها المقدمة في مدخلاتها. في هذه الورقة، نتعامل مع مكون من هذه المسألة من خلال دراسة قدرة النماذج عل ى نشر معلومات السياق ذات الصلة في مواجهة مشتت المحتوى. نقدم نماذج مع مهام كتين تتطلب استخدام معلومات السياق النقدي، وإدخال محتوى مشتت لاختبار مدى احتفاظ النماذج بقوة واستخدام هذه المعلومات الهامة للتنبؤ بها. نحن أيضا التلاعب بشكل منهجي بطبيعة هؤلاء الملذات، لإلقاء الضوء على ديناميات استخدام النماذج من العظة السياقية. نجد أنه على الرغم من أن النماذج تظهر في سياقات بسيطة لجعل التنبؤات بناء على فهم الحقائق ذات الصلة وتطبيقها من السياق المسبق، فإن وجود محتوى مشتت ولكنه غير ذي صرف له تأثير واضح في التنبؤات النموذجية المربكة. على وجه الخصوص، تظهر النماذج عرضة بشكل خاص لعوامل التشابه الدلالي وموقف كلمة. تتسق النتائج مع استنتاج مفادها أن تنبؤات LM مدفوعة بجزء كبير من العظة السياقية السطحية، وليس عن طريق تمثيلات قوية لمعنى السياق.
الرجوع إلى النصوص التي تنقل نفس المعنى بأشكال تعبير مختلفة. أظهرت الأساليب المستندة إلى Pivot، المعروف أيضا باسم ترجمة الرحلة المستديرة، نتائج واعدة في توليد صياغة عالية الجودة. ومع ذلك، فإن الأساليب القائمة على المحور القائمة تعتمد جميعها على اللغة مثل المحور، حيث تكون النصوص الثنائية الثنائية الموازية على نطاق واسع، مطلوبة موازية عالية الجودة. في هذه الورقة، نستكشف جدوى استخدام التمثيلات الدلالية والنزاهة كحوري من أجل إعادة صياغة نصبها. بشكل ملموس، نتحول جملة إلى مجموعة متنوعة من التمثيلات الدلالية أو النحوية المختلفة (بما في ذلك AMR، UD، وتمثيل الدلالي الكامن)، ثم فك تشفير الجملة من التمثيل الدلالي. نسمح أيضا نهجا يستند إلى إعادة الاحتجاط بضغط عملية خط الأنابيب في إطار نهاية إلى نهاية. نقوم بإجراء تجارب تقارن مناهج مختلفة مع أنواع مختلفة من المحاور. تظهر النتائج التجريبية أن اتخاذ AMR كما يمكن للمحافظة الحصول على صياغة مع جودة أفضل من تناول اللغة كمحور. يمكن للإطار الطرفي النهائي أن يقلل من التحول الدلالي عند استخدام اللغة كحوري. إضافة إلى جانب ذلك، يمكن أن تولد العديد من الطرق القائمة على المحور غير المركبات أن تولد صياغة مع جودة مماثلة كنموذج التسلسل الإشراف على التسلسل، والذي يشير إلى أن البيانات الموازية للصيانة قد لا تكون ضرورية لإعادة صياغة عناصر التوليد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا