ترغب بنشر مسار تعليمي؟ اضغط هنا

الكشف عن التحيزات عبر الجغرافية في نمذجة سمية على وسائل التواصل الاجتماعي

Detecting Cross-Geographic Biases in Toxicity Modeling on Social Media

406   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعتمد منصات وسائل التواصل الاجتماعي عبر الإنترنت على نحو متزايد على تقنيات معالجة اللغة الطبيعية (NLP) للكشف عن محتوى مسيء على نطاق واسع من أجل تخفيف الأضرار التي يسببها لمستخدميها. ومع ذلك، فإن هذه التقنيات تعاني من مختلف تحيزات أخذ العينات والجمعية الموجودة في البيانات التدريبية، والتي غالبا ما تؤدي إلى أداء الفرعية على المحتوى ذي الصلة بالمجموعات المهمشة، مما يحتمل أن يؤدي إلى أضرار غير متناسبة تجاههم. ركزت دراسات حول مثل هذه التحيزات حتى الآن على حفنة فقط من محاور التباينات والمجموعات الفرعية التي تحتوي على التعليقات التوضيحية / المعجم المتاحة. وبالتالي، يتم تجاهل التحيزات المتعلقة بالسياقات غير الغربية إلى حد كبير في الأدبيات. في هذه الورقة، نقدم طريقة خاضعة للإشراف ضعيفا للكشف عن التحيزات المعجمية بقوة في السياقات الجغرافية الثقافية الأوسع نطاقا. من خلال دراسة الحالة حول نموذج كشف للسمية المتوفرة للجمهور، نوضح أن طريقتنا تحدد المجموعات البارزة من الأخطاء المتبادلة الجغرافية، وفي متابعة، توضح أن هذه التجمعات تعكس الأحكام الإنسانية من اللغة الهجومية واللغة الفعلية في تلك السياقات الجغرافية. نحن أيضا إجراء تحليل نموذج تدرب على مجموعة بيانات مع ملصقات الحقيقة الأرضية لفهم هذه التحيزات بشكل أفضل، وتقديم تجارب التخفيف الأولي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يمكن أن تؤثر تأطير القضايا السياسية على السياسة والرأي العام.على الرغم من أن الجمهور يلعب دورا رئيسيا في إنشاء وإلقاء الإطارات، إلا أن القليل يعرف عن كيفية القضايا السياسية للأشخاص العاديين في إطار وسائل الإعلام الاجتماعية.من خلال إنشاء مجموعة بيانات جديدة من تغريدات التغريدات المتعلقة بالهجرة المسمى لنصائح تأطير متعددة من نظرية الاتصال السياسية، نقوم بتطوير النماذج الخاضعة للإشراف للكشف عن الإطارات.نوضح كيف تؤثر أيديولوجية المستخدمين وتأثير اختيارات التأطير، وكيف تؤثر تأطير الرسائل على استجابات الجمهور.نجد أن إطارات العدد الأكثر شيوعا المستخدمة الإطارات الإيديولوجية والإقليمية المهمة التي يتم الكشف عنها إلا عن طريق الإطارات الخاصة بالهجرة.علاوة على ذلك، ترتبط الإطارات الموجهة نحو المصالح الإنسانية والثقافة والسياسة بمشاركة المستخدم الأعلى.هذا التحليل الواسع النطاق لظاهرة اجتماعية وملغوية معقدة يسهم في كل من البحوث المركزية والعلوم الاجتماعية.
يستخدم عمل خطاب الشكوى من قبل البشر للتواصل مع عدم وجود عدم تطابق سلبي بين الواقع والتوقعات كرد فعل على وضع غير موات. تصنف النظرية اللغوية للبراغماتية شكاوى إلى مستويات شدة مختلفة تعتمد على تهديد الوجه الذي يرغب فيه الشكوى في القيام به. هذا مفيد بشكل خاص لفهم نية الشكوكيين وكيف يطور البشر استراتيجيات اعتذار مناسبة. في هذه الورقة، ندرس مستوى شدة الشكاوى لأول مرة في اللغويات الحاسوبية. لتسهيل ذلك، فإننا نشعر بإثراء مجموعة بيانات متاحة للجمهور من الشكاوى مع أربع فئات شدة وتدريب شبكات مختلفة قائمة على المحولات جنبا إلى جنب مع المعلومات اللغوية التي تحقق 55.7 ماكرو F1. كما نقوم بالاشتراك في تصنيف تصنيف الشكاوى الثنائية وشدة الشكاوى في إعدادات متعددة المهام التي تحقق نتائج جديدة لتحقيق نتائج جديدة على اكتشاف الشكاوى الثنائية تصل إلى 88.2 ماكرو F1. أخيرا، نقدم تحليلا نوعيا لسلوك نماذجنا في التنبؤ بمستويات شدة الشكوى.
نقدم مصنفات التعلم الآلية لتحديد المعلومات الخاطئة COVID-19 تلقائيا على وسائل التواصل الاجتماعي بثلاث لغات: الإنجليزية، البلغارية، والعربية.قمنا بمقارنة 4 نماذج تعليمية متعددة الأيتاكف لهذه المهمة ووجدت أن نموذج مدرب مع بيرت الإنجليزية يحقق أفضل النت ائج للغة الإنجليزية، وتحقق بيرت متعددة اللغات أفضل النتائج عن البلغارية والعربية.لقد جربنا لقطة صفرية، وقلة طرية، والظروف المستهدفة فقط لتقييم تأثير بيانات التدريب على اللغة المستهدفة حول أداء المصنف، وفهم قدرات نماذج مختلفة للتعميم عبر اللغات في الكشف عن المعلومات الخاطئة عبر الإنترنت.تم إجراء هذا العمل كإرسال إلى المهمة المشتركة، NLP4IF 2021: مكافحة المعكرات المعاكسة 19.حققت أفضل طرازاتنا ثاني أفضل نتائج اختبار التقييم في البلغارية والعربية بين جميع الفرق المشاركة وحصلت على درجات تنافسية للغة الإنجليزية.
إسناد التأليف المتبادل هو المهمة الصعبة المتمثلة في تصنيف المستندات من قبل المؤلفين ثنائي اللغة حيث تتم كتابة وثائق التدريب بلغة مختلفة عن وثائق التقييم. تعتمد الحلول التقليدية على أي ترجمة لتمكين استخدام ميزات اللغة الواحدة أو طرق استخراج الميزات ال مستقلة من اللغة. في الآونة الأخيرة، يمكن أيضا تدريب نماذج اللغة القائمة على المحولات مثل Bert مسبقا على لغات متعددة، مما يجعلها مرشحا بديهيا للصفوفات المصنوعة من اللغة عبر اللغات التي لم يتم استخدامها لهذه المهمة بعد. نقوم بإجراء تجارب مكثفة لقياس أداء ثلاث نهج مختلفة لتجربة إسناد التأليف الصغير باللغة الصغيرة: (1) استخدام الميزات المستقلة للغات مع نماذج التصنيف التقليدية (2) باستخدام نماذج لغة مدربة مسبقا متعددة اللغات، و (3) استخدام الترجمة الآلية للسماح بتصنيف اللغة الفردي. بالنسبة للميزات المستقلة باللغة، فإننا نستخدم ميزات النحوية العالمية مثل علامات جزء من الكلام ورسم الرسوم البيانية التبعية، ومبرز متعدد اللغات كنموذج لغة مدرب مسبقا. نحن نستخدم تعليقات البيانات الاجتماعية الصغيرة على نطاق واسع، مما يعكس بشكل وثيق السيناريوهات العملية. نظهر أن تطبيق الترجمة الآلية يزيد بشكل كبير من أداء جميع الأساليب تقريبا، وأن الميزات الأساسية في تركيبة مع خطوة الترجمة تحقق أفضل أداء التصنيف الكلي. على وجه الخصوص، نوضح أن نماذج اللغة المدربة مسبقا متفوقة من قبل النماذج التقليدية في مشاكل إسناد التأليف الصغيرة على نطاق صغير لكل مزيج لغة تم تحليلها في هذه الورقة.
في الوقت الحاضر، هناك الكثير من الإعلانات التي تختبئ كوظائف طبيعية أو مشاريع خبرة في وسائل التواصل الاجتماعي.هناك القليل من البحوث في الكشف عن الإعلانات على النصوص الصينية الماندرين.وهكذا تهدف هذه الورقة إلى التركيز على الكشف الإعلامي المخفي عن المشا ركات عبر الإنترنت في تايوان ماندرين الصينية.لقد فحصنا سبعة ميزات سياقية بناء على نظريات لغوية في مستوى الخطاب.يمكن تجميع هذه الميزات إلى ثلاثة مخططات تحت بنية الكتابة العامة العامة.نفذت هذه الميزات هذه لتدريب نموذج برت متعدد المهام للكشف عن إعلانات.اقترحت النتائج أن ميزات لغوية محددة سيساعد في استخراج إعلانات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا