ترغب بنشر مسار تعليمي؟ اضغط هنا

فهم وتفسير تأثير سياق المستخدم في الكشف عن الكلام

Understanding and Interpreting the Impact of User Context in Hate Speech Detection

435   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

عندما ينتشر خطاب الكراهية على وسائل التواصل الاجتماعي والمجتمعات عبر الإنترنت، يستمر البحث في العمل على الكشف التلقائي.في الآونة الأخيرة، كان أداء الاعتراف يتزايد بفضل التقدم في التعلم العميق وإدماج ميزات المستخدم.يحقق هذا العمل في الآثار التي يمكن أن تحتوي هذه الميزات على نموذج للكشف.على عكس البحث السابق، نظهر أن مقارنة الأداء البسيطة لا تعرض التأثير الكامل لضمان معلومات السياق والمستخدمية.من خلال الاستفادة من تقنيات الشرط، نعرض (1) يلعب ميزات المستخدم دورا في قرار النموذج و (2) كيف تؤثر على مساحة الميزة المستفادة من النموذج.إلى جانب الكشف عن ذلك --- وتوضيح أيضا لماذا --- ميزات المستخدم هي سبب مكاسب الأداء، نوضح كيف يمكن دمج هذه التقنيات إلى فهم النموذج بشكل أفضل والكشف عن التحيز غير المقصود.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

من المعروف أن حساسية النماذج العميقة العصبية لضوضاء الإدخال مشكلة صعبة.في NLP، يتدهور أداء النموذج غالبا مع الضوضاء التي تحدث بشكل طبيعي، مثل الأخطاء الإملائية.لتخفيف هذه المشكلة، قد تستفيد النماذج البيانات الوكيل بشكل مصطنع.ومع ذلك، تم تحديد كمية ون وع الضوضاء التي تم إنشاؤها حتى الآن بشكل تعسفي.لذلك نقترح نموذج الأخطاء الإحصائية من كورسا - تصحيح الأخطاء النحوية.نقدم تقييم شامل للعديد من متواك أنظمة NLP الحديثة لغات متعددة، مع المهام بما في ذلك التحليل المورفو النحوي، التعرف على الكيان المسمى، الترجمة الآلية العصبية، مجموعة فرعية من مرجع الغراء والفهم القراءة.نحن نقارن أيضا مناهضين لمعالجة انخفاض الأداء: أ) تدريب نماذج NLP مع البيانات الوكيل التي تم إنشاؤها بواسطة إطار عملائنا؛و ب) تقليل ضوضاء الإدخال بالنظام الخارجي لتصحيح اللغة الطبيعية.يتم إصدار الرمز في https://github.com/ufal/kazitext.
أظهرت وكلاء الحوار القرملي العصبي القدرة المتزايدة على إجراء محادثات Chitchat قصيرة، عند تقييمها من قبل CrowDWorkers في الإعدادات التي تسيطر عليها. ومع ذلك، فإن أدائهم في نشر الحياة الحقيقية - التحدث إلى المستخدمين الدوافع الجوهرية في البيئات الصاخبة - أقل استكشافا جيدا. في هذه الورقة، نقوم بإجراء دراسة حالة مفصلة لنموذج توليدي عصبي منتشر كجزء من الكاردينال الغربي، جائزة اليكسا جائزة. نجد أن كلمات المستخدم غير واضحة هي مصدر رئيسي للأخطاء الإنتاجية مثل تجاهل، الهلوسة، إلغاء التكرار. ومع ذلك، حتى في سياقات لا لبس فيها، يقوم النموذج بشكل متكرر بإجراء أخطاء في التفكير. على الرغم من أن المستخدمين يعبرون عن عدم الرضا في الارتباط مع هذه الأخطاء، تعتمد أنواع عدم الاستياء بشكل معيادة (مثل إفرازات الاعتراضات والخصوصية) على عوامل إضافية - مثل المواقف الشخصية للمستخدم، والاستلاك غير المعتاد مسبق في المحادثة. أخيرا، نظهر أن كلمات المستخدم غير الراضية يمكن استخدامها كإشارة تعليمية شبه إشراف لتحسين نظام الحوار. نحن ندرب نموذجا للتنبؤ بعدم التشغيل التالي، وتظهر من خلال التقييم البشري كدالة ترتيب، فهو يختار كلام أعلى من الجودة الناتجة.
تقلص نهج التحيز مع اعتماد النماذج على ميزات البيانات الحساسة للبيانات، مثل رموز المجموعة الاجتماعية (SGTS)، مما يؤدي إلى تنبؤات متساوية عبر الميزات الحساسة.ومع ذلك، في الكشف عن الكلام الكراهية، قد يتجاهل تكالير التعادل النموذجي الاختلافات المهمة بين الفئات الاجتماعية المستهدفة، حيث يمكن أن يحتوي خطاب الكراهية على لغة نمطية محددة لكل رقاقة.هنا، لاتخاذ لغة محددة حول كل رقص في الاعتبار، نعتمد على الإنصاف المتعارض واستكمال التنبؤات فيما بينها، ولدت من خلال تغيير SGTS.تقوم طريقتنا بتقييم التشابه في احتمالية الجملة (عبر نماذج اللغة المدربة مسبقا) بين الوسائل المتعددة، لعلاج SGTS على قدم المساواة إلا في سياقات قابلة للتبديل.من خلال تطبيق اقتران Logit لتحقيق التوازن في المجموعة المحظورة من مواجهة المصنع لكل حالة، فإننا نحسن مقاييس الإنصاف مع الحفاظ على الأداء النموذجي في اكتشاف خطاب الكراهية.
نحن نتطلع إلى مهمة اكتشاف الكلام الكراهية التلقائي لغات الموارد المنخفضة.بدلا من جمع وإشراف بيانات خطاب الكراهية الجديدة، نوضح كيفية استخدام التعلم عبر التحويلات عبر اللغات للاستفادة من البيانات الموجودة بالفعل من لغات الموارد العالية.باستخدام مصنفات مقرها Word من Word، نحقق الأداء الجيد على اللغة المستهدفة من خلال التدريب فقط على مجموعة بيانات المصدر.باستخدام نظامنا المنقول، نحن Bootstrap على بيانات اللغة المستهدفة غير المستهدفة، وتحسين أداء نهج النقل المتبادل القياسي.نحن نستخدم اللغة الإنجليزية كلغة موارد عالية والألمانية مثل اللغة المستهدفة التي تتوفر فقط كمية صغيرة من كورسا المشروح.تشير نتائجنا إلى أن التعلم عبر التحويلات الشاملة للتعلم مع نهجنا للاستفادة من البيانات الإضافية غير المسبقة هي وسيلة فعالة لتحقيق الأداء الجيد على لغات مستهدفة منخفضة الموارد دون الحاجة إلى أي شروح لغة الهدف.
كيف يفهم الناس معنى كلمة صغيرة "عند استخدامها لوصف البعوض أو الكنيسة أو كوكب؟في حين أن البشر لديهم قدرة رائعة على تشكيل معاني من خلال الجمع بين المفاهيم القائمة، فإن نمذجة هذه العملية تحديا.تتناول هذه الورقة هذا التحدي من خلال Cerebra (تمثيلات المعنى المعنى المعني بالسياق في الدماغ) نموذج الشبكة العصبية.يميز Cerebra كيف يتكيف معاني الكلمات بشكل ديناميكي في سياق جملة من خلال الحكم المتحلل في جمهورية FMRI إلى الكلمات والكلمات في ميزات الدلالية المجدولة في الدماغ.يوضح أن الكلمات في سياقات مختلفة لها تمثيلات مختلفة والكلمة التي تعني التغييرات بطريقة ذات معنى إلى الموضوعات البشرية.يمكن أن تستخدم التمثيلات القائمة على سياق Cerebra لجعل تطبيقات NLP أكثر تشبه الإنسان.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا