ترغب بنشر مسار تعليمي؟ اضغط هنا

Jibes \ & Delights: مجموعة بيانات من الإهانات المستهدفة والمجاملات لمعالجة إساءة الاستخدام عبر الإنترنت

Jibes \& Delights: A Dataset of Targeted Insults and Compliments to Tackle Online Abuse

323   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أصبحت الإيذاء عبر الإنترنت واللغة المسيئة في وسائل التواصل الاجتماعي مشاكل واسعة النطاق في العصر الرقمي اليوم.في هذه الورقة، نحن نساهم في مجموعة بيانات قائمة على إعادة استخدامها، تتكون من 68،159 إهانات و 51،102 تحية مستهدفة للأفراد بدلا من استهداف مجتمع أو سباق معين.ثانيا، نقوم بتقييم العديد من النماذج الحديثة الموجودة في كل من التصنيف ونقل النمط غير المقترح على DataSet.أخيرا، نقوم بتحليل النتائج التجريبية واستنتج أن مهمة النقل صعبة، تتطلب النماذج لفهم درجة عالية من الإبداع المعروضة في البيانات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم مجموعة بيانات جديدة تستند إلى Twitter للكشف عن السيبراني وإساءة استخدام عبر الإنترنت.تضم هذه البيانات التي تضم 62،587 تغريدات، تم الحصول على هذه البيانات من تويتر باستخدام شروط استعلام محددة تهدف إلى استرداد تغريدات مع احتمالات عا لية من أشكال مختلفة من البلطجة والمحتوى المسيء، بما في ذلك الإهانة والتصيد والبهجة والسخرية والتهديد والإباحية والاستبعاد.لقد قامنا بتجنيد مجموعة من 17 ملقاة لأداء التعليق التوضيحي بحبائهم الجميلة على مجموعة بيانات كل تغريدة موضحة بمثابة ثلاثة محنوح.جميع الحناحيين لدينا هي مستخدمي التعليم العالي والمتكرر في المدرسة الثانوية.اتفاقية المشتركة بين الخصوصية لأن مجموعة البيانات التي تقاسها Krippendorff's ألفا هي 0.67.تم تأكيد التحليلات التي أجريتها في مجموعة بيانات الموضوعات الإلكترونية المشتركة التي أبلغت عن دراسات أخرى وكشفت علاقات مثيرة للاهتمام بين الطبقات.تم استخدام DataSet لتدريب عدد من نماذج التعلم العميقة المستندة إلى المحولات التي تعود إلى نتائج مثيرة للإعجاب.
تعتبر إساءة استخدام الإنترنت مشكلة مجتمعية مهمة في عصرنا. يواجه ملايين مستخدمي الإنترنت المضايقات والعنصرية والهجمات الشخصية وأنواع أخرى من سوء المعاملة عبر مختلف المنصات. يمكن أن تكون الآثار النفسية للإيذاء على الأفراد عميقة ودائمة. وبالتالي، خلال ا لسنوات القليلة الماضية، كان هناك جهد بحثي كبير نحو الكشف الآلي للكشف عن اللغة المسيئة في مجال NLP. في ورقة الموضع هذه، نناقش الدور الذي يلعبه نمذجة المستخدمين والمجتمعات عبر الإنترنت في اكتشاف إساءة الاستخدام. على وجه التحديد، نقوم بمراجعة وتحليل حالة الأساليب الفنية التي ترفض معلومات المستخدم أو المجتمع لتعزيز فهم اللغة والكشف عن اللغة المسيئة. ثم نستكشف التحديات الأخلاقية المتمثلة في دمج معلومات المستخدم والمجتمع، ووضع اعتبارات لتوجيه البحوث المستقبلية. أخيرا، نتعلم موضوع الشرح في الكشف عن اللغة المسيئة، واقتراح خصائص يجب أن تهدف طريقة تفسير إلى إظهارها. نحن تصف كيف يمكن للمستخدم والمعلومات المجتمعية تسهيل تحقيق هذه الخصائص ومناقشة التشغيل الفعال للتفسير في ضوء العقارات.
يستخدم الأشخاص من المنتديات عبر الإنترنت إما أن نبحث عن معلومات أو للمساهمة به. بسبب شعبيتها المتنامية، تم إنشاء بعض المنتديات عبر الإنترنت خصيصا لتوفير الدعم والمساعدة والآراء للأشخاص الذين يعانون من مرض عقلي. الاكتئاب هو واحد من الأمراض النفسية الأ كثر شيوعا في جميع أنحاء العالم. يتواصل الأشخاص المزيد من المنتديات عبر الإنترنت للعثور على إجابات لأمراضهم النفسية. ومع ذلك، لا توجد آلية لقياس شدة الاكتئاب في كل وظيفة وإعطاء أهمية أعلى لأولئك الذين يشخصون بالاكتئاب بشدة. على الرغم من أن العديد من الأبحاث التي تستند إلى بيانات المنتدى عبر الإنترنت وتحديد الاكتئاب قد أجريت، نادرا ما يتم استكشاف شدة الاكتئاب. بالإضافة إلى ذلك، فإن غياب مجموعات البيانات سوف تنموي تطوير إجراءات تشخيصية جديدة للممارسين. من هذه الدراسة، نقدم مجموعة بيانات لدعم البحوث حول تقييم شدة الاكتئاب. النهج الحسابي لقياس عملية تلقائية، خطورة محددة من الاكتئاب هنا نهج جديد تماما. ومع ذلك، هناك حاجة إلى ذلك، هناك حاجة إلى هذا القياس الموضعي للاكتئاب في مشاركات المنتدى عبر الإنترنت لضمان موازين القياس المستخدمة في بحثنا يجتمع مع القواعد المتوقعة للبحث العلمي.
تهدف مهمة الكشف عن الموقف إلى اكتشاف موقف سقسقة أو نص للحصول على هدف. يمكن تسمية هذه الأهداف كيانات أو جمل حرة (مطالبات). على الرغم من أن المهمة تنطوي على سبب سقسقة فيما يتعلق بهدف، إلا أننا نجد أنه من الممكن تحقيق دقة عالية على العديد من مجموعات بيا نات الكشف عن موقف تويتر المتوفرة علنا ​​دون النظر إلى الجملة المستهدفة. على وجه التحديد، حقق نموذج تصنيف Tweet بسيط أداء على مستوى بشري على مجموعة بيانات WT - WT وأكثر من دقة ثالثة في مختلف مجموعات البيانات الأخرى. نحن نبحث في وجود تحيزات في مثل هذه البيانات للعثور على الارتباطات الزائفة المحتملة لعلاقات موقد المعنويات والاختيار المعجمي المرتبط بفئة الموقف. علاوة على ذلك، نقترح مجموعة بيانات كبيرة جديدة خالية من هذه التحيزات وإظهار ملصفها على أنظمة الكشف عن الموقف الموجودة. تظهر نتائجنا التجريبية نطاقا كبيرا للبحث عن مهمة الكشف عن الموقف ويقترح العديد من الاعتبارات لإنشاء مجموعات بيانات الكشف عن الموقف في المستقبل.
تحليل Coreference Event Dockence (CDCR) هي مهمة تحديد الأحداث التي تشير إلى نفس الأحداث طوال مجموعة من المستندات. تعد شرح بيانات CDCR عملية شاقة ومكلفة، موضحا سبب وجود كورسا الموجودة صغيرة وتفتقر إلى تغطية المجال. للتغلب على هذه الاختناق، نستخلك تلقا ئيا بيانات Coreference من الارتباطات التشعبية في الأخبار عبر الإنترنت: عند الإشارة إلى حدث كبير في العالم الحقيقي، غالبا ما يقوم الكتاب في كثير من الأحيان بإضافة ارتباط تشعبي إلى مقالة أخرى تغطي هذا الحدث. نوضح أن جمع الارتباطات التشعبية التي تشير إلى نفس المقالة (الأقوالية) تنتج بيانات CDCR واسعة عالية الجودة وإنشاء كائن من وثائق 2M وذكر الحدث الفضي القياسي 2.7M يسمى HyperCoref. نقيم نظام أحدث على ثلاثة CDCR Corpora ويجد أن النماذج المدربة على مجموعات فرعية صغيرة من Hypercoref تنافسية للغاية، مع أداء مشابه للنماذج المدربة على البيانات الذهبية القياسية. مع عملنا، نقوم بحرية بحث CDCR من اعتمادا على بيانات التدريب المكلفة المشروح البشرية وتفتتح إمكانيات للبحث عن البحوث بعد أن يتم تكييف نهج استخراج البيانات لدينا بسهولة مع لغات أخرى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا