ترغب بنشر مسار تعليمي؟ اضغط هنا

مجموعة بيانات Twitter متعددة الملصقات على نطاق واسع للكشف عن الإلكترونية وإساءة الاستخدام عبر الإنترنت

A Large-Scale English Multi-Label Twitter Dataset for Cyberbullying and Online Abuse Detection

238   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقدم مجموعة بيانات جديدة تستند إلى Twitter للكشف عن السيبراني وإساءة استخدام عبر الإنترنت.تضم هذه البيانات التي تضم 62،587 تغريدات، تم الحصول على هذه البيانات من تويتر باستخدام شروط استعلام محددة تهدف إلى استرداد تغريدات مع احتمالات عالية من أشكال مختلفة من البلطجة والمحتوى المسيء، بما في ذلك الإهانة والتصيد والبهجة والسخرية والتهديد والإباحية والاستبعاد.لقد قامنا بتجنيد مجموعة من 17 ملقاة لأداء التعليق التوضيحي بحبائهم الجميلة على مجموعة بيانات كل تغريدة موضحة بمثابة ثلاثة محنوح.جميع الحناحيين لدينا هي مستخدمي التعليم العالي والمتكرر في المدرسة الثانوية.اتفاقية المشتركة بين الخصوصية لأن مجموعة البيانات التي تقاسها Krippendorff's ألفا هي 0.67.تم تأكيد التحليلات التي أجريتها في مجموعة بيانات الموضوعات الإلكترونية المشتركة التي أبلغت عن دراسات أخرى وكشفت علاقات مثيرة للاهتمام بين الطبقات.تم استخدام DataSet لتدريب عدد من نماذج التعلم العميقة المستندة إلى المحولات التي تعود إلى نتائج مثيرة للإعجاب.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مع استمرار العالم في محاربة جائحة CovID-19، فإنه يقاتل في وقت واحد من نقص الدم "- وهو طوفان من تضليل وانتشار نظريات المؤامرة المؤدية إلى تهديدات صحية وشعبة المجتمع. لمكافحة هذا المعكرية، هناك حاجة ملحة لمجموعات البيانات القياسية التي يمكن أن تساعد ال باحثين على تطوير وتقييم النماذج الموجهة نحو الكشف التلقائي عن التضليل. في حين أن هناك جهودا متزايدة لإنشاء مجموعات بيانات قياسية كافية ومفتوحة للمصدر للغة الإنجليزية، فإن الموارد القابلة للمقارنة غير متاحة تقريبا بالنسبة للألمانية، مما يترك البحث في اللغة الألمانية متخلفة بشكل كبير. في هذه الورقة، نقدم DataSet المعيار الجديد Fang-Covid يتكون من 28،056 مواد إخبارية ألمانية حقيقية و 13،186 مرتبطة بمعائق CovID-19 وكذلك بيانات عن انتشارها على Twitter. علاوة على ذلك، نقترح نموذجا قابل للتفسير القائم على السياق والاجتماعي للكشف عن الأخبار المزيفة، ومقارنة أدائه إلى النماذج والأداء الأسود الميزة لتقييم الأهمية النسبية للميزات القابلة للتفسير البشرية في التمييز بين الأخبار المزيفة من الأخبار الأصلية وبعد
أصبحت الإيذاء عبر الإنترنت واللغة المسيئة في وسائل التواصل الاجتماعي مشاكل واسعة النطاق في العصر الرقمي اليوم.في هذه الورقة، نحن نساهم في مجموعة بيانات قائمة على إعادة استخدامها، تتكون من 68،159 إهانات و 51،102 تحية مستهدفة للأفراد بدلا من استهداف مج تمع أو سباق معين.ثانيا، نقوم بتقييم العديد من النماذج الحديثة الموجودة في كل من التصنيف ونقل النمط غير المقترح على DataSet.أخيرا، نقوم بتحليل النتائج التجريبية واستنتج أن مهمة النقل صعبة، تتطلب النماذج لفهم درجة عالية من الإبداع المعروضة في البيانات.
وقد وجدت الأعمال الحديثة دليلا على التحيز بين الجنسين في نماذج من الترجمة الآلية ودقة Aquerence باستخدام مجموعات بيانات التشخيص الاصطناعية في الغالب. في حين أن هذه التحيز الكمي في تجربة خاضعة للرقابة، فإنها غالبا ما تفعل ذلك على نطاق صغير وتتكون في م عظمها من الجمل الاصطناعية، خارج التوزيع. في هذا العمل، نجد أنماط نحوية تشير إلى مهام الدورانية النمطية وغير النمطية (مثل الممرضات الإناث مقابل الراقصين الذكور) في كوربورا من ثلاثة مجالات، مما أدى إلى أول مجموعة بيانات BIAS الجنسية على نطاق واسع من 108 ألفا جمل. نحن نتحقق يدويا من جودة Corpus الخاصة بنا واستخدامها لتقييم التحيز بين الجنسين في نماذج تحليل الأسلحة الأساسية المختلفة ونماذج الترجمة الآلية. نجد أن جميع النماذج المختبرة تميل إلى الإفراط في الاعتماد على الصور النمطية الجنسانية عند تقديمها مع المدخلات الطبيعية، والتي قد تكون ضارة بشكل خاص عند نشرها في النظم التجارية. أخيرا، نظيرنا على أن مجموعة بياناتنا تضفي نفسها على نموذج دقة COMEARCASE، ويجد أن يجدد التحيز على مجموعة مشغولة. تتوفر DataSet ونماذجنا علنا ​​في Github.com/slab-nlp/bug. نأمل أن يحفزون البحوث المستقبلية في تقنيات تخفيف تقييم التقييم بين الجنسين في الإعدادات الواقعية.
يستخدم الأشخاص من المنتديات عبر الإنترنت إما أن نبحث عن معلومات أو للمساهمة به. بسبب شعبيتها المتنامية، تم إنشاء بعض المنتديات عبر الإنترنت خصيصا لتوفير الدعم والمساعدة والآراء للأشخاص الذين يعانون من مرض عقلي. الاكتئاب هو واحد من الأمراض النفسية الأ كثر شيوعا في جميع أنحاء العالم. يتواصل الأشخاص المزيد من المنتديات عبر الإنترنت للعثور على إجابات لأمراضهم النفسية. ومع ذلك، لا توجد آلية لقياس شدة الاكتئاب في كل وظيفة وإعطاء أهمية أعلى لأولئك الذين يشخصون بالاكتئاب بشدة. على الرغم من أن العديد من الأبحاث التي تستند إلى بيانات المنتدى عبر الإنترنت وتحديد الاكتئاب قد أجريت، نادرا ما يتم استكشاف شدة الاكتئاب. بالإضافة إلى ذلك، فإن غياب مجموعات البيانات سوف تنموي تطوير إجراءات تشخيصية جديدة للممارسين. من هذه الدراسة، نقدم مجموعة بيانات لدعم البحوث حول تقييم شدة الاكتئاب. النهج الحسابي لقياس عملية تلقائية، خطورة محددة من الاكتئاب هنا نهج جديد تماما. ومع ذلك، هناك حاجة إلى ذلك، هناك حاجة إلى هذا القياس الموضعي للاكتئاب في مشاركات المنتدى عبر الإنترنت لضمان موازين القياس المستخدمة في بحثنا يجتمع مع القواعد المتوقعة للبحث العلمي.
نقدم متعدد اليوراء، مجموعة بيانات جديدة متعددة اللغات لتصنيف الموضوع للوثائق القانونية. تضم DataSet قوانين الاتحاد الأوروبي 65 ألف (EU)، والتي ترجمت رسميا في 23 لغة، مشروحا بالملصقات المتعددة من تصنيف Eurovoc. نسلط الضوء على تأثير المنفأة الزمنية الا نجراف وأهمية التسلسل الزمني، بدلا من الانقسامات العشوائية. نستخدم DataSet كاختبار لنقل صفرية عبر اللغات، حيث استغلنا المستندات التدريبية المشروح بلغة واحدة (مصدر) لتصنيف المستندات بلغة أخرى (الهدف). نجد أن ضبط النموذج المحدد المتعدد اللغتين (XLM-Roberta، MT5) في لغة مصدر واحدة يؤدي إلى نسيان كارثي من المعرفة متعددة اللغات، وبالتالي، فإن تحويل صفر ضعيف إلى لغات أخرى. استراتيجيات التكيف، وهي استراتيجيات دقيقة، محولات، معترفيت، LNFIT، اقترحت في الأصل تسريع الضبط الجميل للمهام النهائية الجديدة، والمساعدة في الاحتفاظ بالمعرفة متعددة اللغات من الاحتجاج، وتحسين نقل اللغات الصفر قليلا، ولكن تأثيرها يعتمد أيضا على ذلك على النموذج المحدد مسبقا يستخدم وحجم مجموعة التسمية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا