ترغب بنشر مسار تعليمي؟ اضغط هنا

نهج المعجم السياقي للكشف عن اللغة المسيئة

Contextual-Lexicon Approach for Abusive Language Detection

335   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نظرا لأن النهج القائم على المعجم هو أكثر أناقة علميا، أوضح مكونات الحل وأسهل التعميم إلى التطبيقات الأخرى، توفر هذه الورقة نهجا جديدا للغة الهجومية والكشف عن الكلام على وسائل التواصل الاجتماعي، والتي تجسد معجم من الهجوم الضمني والبريثوإقتصار التعبيرات المشروح مع المعلومات السياقية.نظرا لشدة تعليقات وسائل التواصل الاجتماعي المسيئة في البرازيل، وعدم وجود أبحاث باللغة البرتغالية والبرتغالية البرازيلية هي اللغة المستخدمة للتحقق من صحة النماذج.ومع ذلك، قد يتم تطبيق طريقتنا على أي لغة أخرى.تظهر التجارب التي أجراها فعالية النهج المقترح، مما يتفوق على الأساليب الأساسية الحالية للغة البرتغالية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم HATEBERT، نموذج BERT الذي تم تدريبه على إعادة تدريب للكشف عن اللغة المسيئة باللغة الإنجليزية.تم تدريب النموذج على RAL-E، وهي مجموعة بيانات واسعة النطاق من تعليقات Reddit باللغة الإنجليزية من المجتمعات المحظورة لكونها مسيئة أو بغيضة حيث قمنا بإتا حتها للجمهور.نقدم نتائج مقارنة مفصلة بين نموذج اللغة المدرب مسبقا والنسخة المستقلة على ثلاث مجموعات بيانات باللغة الإنجليزية لمهام الهجومية والمسيئة ومهام الكشف عن الكلام.في جميع مجموعات البيانات، تتفوق HateBERT على نموذج بيرت العام.ونناقش أيضا مجموعة تجارب تقارن إمكانية نقل النماذج الصعبة في مجموعات البيانات، مما يشير إلى أن القدرة على التأثر بالتوافق مع الظواهر المشروحة.
تبلغ نماذج الكشف عن اللغة المسيئة للحكومة الأمريكية أداء كبير في Corpus، ولكن أداء الفضل عند تقييم التعليقات المسيئة التي تختلف عن سيناريو التدريب.نظرا لأن الشروح البشرية ينطوي على وقت وجهد كبير، فإن النماذج التي يمكن أن تتكيف مع التعليقات التي تم جم عها حديثا يمكن أن تكون مفيدة.في هذه الورقة، نحقق في فعالية العديد من نهج تكيف النطاقات غير المدمرة (UDA) لمهمة الكشف عن اللغة المسيئة.بالمقارنة، نقوم بتكييف متغير نموذج BERT، تدربت على تعليقات مسيئة واسعة النطاق، باستخدام طراز لغة ملثم (MLM)يوضح تقييمنا أن نهج UDA تؤدي إلى أداء فرعي الأمثل، في حين أن ضبط الريامة الجميلة لا يتحسن في إعداد العرض.يكشف التحليل المفصل عن حدود نهج UDA ويؤكد على الحاجة إلى بناء طرق تكيف فعالة لهذه المهمة.
أظهرت أنظمة الكشف عن اللغة المسيئة الحالية التحيز غير المقصود تجاه ميزات حساسة مثل الجنسية أو الجنس. هذه قضية حاسمة، والتي قد تؤذي الأقليات والجماعات الممثلة تمثيلا ناقصا إذا تم دمج هذه الأنظمة في تطبيقات العالم الحقيقي. في هذه الورقة، نقوم بإنشاء اخ تبارات مخصصة من خلال أداة قائمة المراجعة (Ribeiro et al.، 2020) للكشف عن التحيزات داخل مصنفات اللغة المسيئة للغة الإنجليزية. نقارن سلوك نماذج استنادتين في بيرت، واحد مدرب على مجموعة بيانات الكلام الكراهية العامة والآخر في مجموعة بيانات للكشف عن الحرج. يوضح تقييمنا أنه على الرغم من أن المصنفات القائمة على بيرت تحقق مستويات عالية الدقة على مجموعة متنوعة من مهام معالجة اللغة الطبيعية، فإنها تؤدي بشكل سيء للغاية فيما يتعلق بالإنصاف والتحيز، لا سيما بشأن العينات التي تنطوي على الصور النمطية الضمنية، وتعبيرات عن الكراهية نحو الأقليات والسمات المحمية كما العرق أو الميل الجنسي. نطلق سراح كل من أجهزة الكمبيوتر المحمولة المنفذة لتوسيع اختبارات الإنصاف ومجموعات البيانات الاصطناعية التي يمكن استخدامها لتقييم تنظيم الأنظمة بشكل مستقل عن قائمة المراجعة.
أصبح استخدام آليات الاهتمام في أساليب التعلم العميق شعبية في معالجة اللغة الطبيعية بسبب أدائه المعلقة. يسمح باستخدام هذه الآليات إلى إحدى الأهمية لإدارة أهمية عناصر التسلسل وفقا لسياقها، ومع ذلك، فقد تمت ملاحظتها هذه الأهمية بشكل مستقل بين أزواج عناص ر التسلسل (اهتمام الذات) وبين مجال تطبيق التسلسل (الاهتمام السياقي)، مما يؤدي إلى فقد المعلومات ذات الصلة والحد من تمثيل التسلسلات. لمعالجة هذه القضايا الخاصة هذه نقترح آلية الاهتمام الذاتي الذاتي، والتي تتداول قبالة القيود السابقة، من خلال النظر في العلاقات الداخلية والسياقية بين عناصر التسلسل. تم تقييم الآلية المقترحة في أربع مجموعات قياسية لتحقيق مهمة تحديد اللغة المسيئة لتحقيق النتائج المشجعة. تفوقت على آليات الاهتمام الحالية وأظهرت أداء تنافسي فيما يتعلق بالنهج الحديثة من بين الفن.
أصبح الكشف عن اللغة المسيئة أداة مهمة لزراعة منصات آمنة عبر الإنترنت.نحن نبحث في تفاعل جودة التوضيحية وأداء المصنف.نحن نستخدم مخطط توضيحي جديد وحبوس جديد يتيح لنا التمييز بين اللغة المسيئة والاستخدامات العامية للغالبية غير المقصود ضررا.تظهر نتائجنا م يلا من العمال الحشد للإفراط في استخدام الفئة المسيئة، مما يخلق توازن فئة غير واقعية ويؤثر على دقات التصنيف.نحقق أيضا في طرق مختلفة للتمييز بين الإساءة الصريحة والمنامية وإظهار النهج القائم على المعجم إما أكثر من الإيذاء أو التقدير نسبة الإساءة الصريحة في مجموعات البيانات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا