ترغب بنشر مسار تعليمي؟ اضغط هنا

صفر - تصفية محتوى عبر اللغات - لغة هجومية وكشف الكلام الكراهية

Zero-shot Cross-lingual Content Filtering: Offensive Language and Hate Speech Detection

344   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم نظاما للصفر بالرصاص لغة هجومية عبر اللغات وتصنيف الكلام الكراهية.تم تدريب النظام على مجموعات البيانات الإنجليزية واختباره في مهمة اكتشاف محتوى خطاب الكراهية والوسائط الاجتماعية الهجومية في عدد من اللغات دون أي تدريب إضافي.تظهر التجارب قدرة رائعة لكلا النموذجين للتعميم من اللغة الإنجليزية إلى لغات أخرى.ومع ذلك، هناك فجوة متوقعة في الأداء بين النماذج التي تم اختبارها عبر اللغات والنماذج الأولية.يتوفر أفضل نموذج أداء (مصنف المحتوى الهجومي) عبر الإنترنت ك api بقية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نتطلع إلى مهمة اكتشاف الكلام الكراهية التلقائي لغات الموارد المنخفضة.بدلا من جمع وإشراف بيانات خطاب الكراهية الجديدة، نوضح كيفية استخدام التعلم عبر التحويلات عبر اللغات للاستفادة من البيانات الموجودة بالفعل من لغات الموارد العالية.باستخدام مصنفات مقرها Word من Word، نحقق الأداء الجيد على اللغة المستهدفة من خلال التدريب فقط على مجموعة بيانات المصدر.باستخدام نظامنا المنقول، نحن Bootstrap على بيانات اللغة المستهدفة غير المستهدفة، وتحسين أداء نهج النقل المتبادل القياسي.نحن نستخدم اللغة الإنجليزية كلغة موارد عالية والألمانية مثل اللغة المستهدفة التي تتوفر فقط كمية صغيرة من كورسا المشروح.تشير نتائجنا إلى أن التعلم عبر التحويلات الشاملة للتعلم مع نهجنا للاستفادة من البيانات الإضافية غير المسبقة هي وسيلة فعالة لتحقيق الأداء الجيد على لغات مستهدفة منخفضة الموارد دون الحاجة إلى أي شروح لغة الهدف.
تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام الم ختلفة وظروف البيانات تجعل من الصعب رسم مقارنة ذات مغزى. في العمل الحالي، نهدف إلى نهج أكثر منهجية للمهمة في متناول اليد. أولا، نقوم بتحليل أداء تحديد اللغة، وهي أداة تستخدم عادة لتصفية البيانات في مجتمع MT وتحديد نقاط الضعف المحددة. بناء على النتائج التي توصلنا إليها، نقترح بعد ذلك العديد من أساليب رواية لتصفية البيانات، استنادا إلى Argeddings Word عبر اللغات. قارنا مناهجنا إلى إحدى الطرق الفائزة من المهمة المشتركة ل WMT 2018 على تصفية Corpus الموازية على ثلاث مهام حقيقية عالية الموارد MT. نجد الطريقة المذكورة المذكورة، والتي كانت تؤدي قوية للغاية في المهمة المشتركة WMT، لا تؤدي بشكل جيد خلال ظروف مهمتنا الأكثر واقعية. بينما نجد أن نهجنا تخرج في الجزء العلوي من المهام الثلاثة، فإن المتغيرات المختلفة تؤدي أفضل مهام مختلفة. تشير تجارب أخرى على المهمة المشتركة لعاملة WMT 2020 للتصفية الشديدة الموازية أن أساليبنا تحقق نتائج مماثلة لأقوى التقديمات لهذه الحملة.
اكتشاف الكلام الكراهية هو مجال أبحاث بنشاط مع مجموعة متنوعة من الأساليب المقترحة مؤخرا التي سمحت بدفع النتائج الحديثة.واحدة من تحديات هذه الأساليب الآلية - وهي نماذج التعلم العميق الحديثة - خطر الإيجابيات الخاطئة (أي، اتهامات كاذبة)، والتي قد تؤدي إل ى حجب أو إزالة محتوى وسائل التواصل الاجتماعي غير الضارة في التطبيقات مع تدخل المشرف القليلوبعدنحن نقيم نماذج التعلم العميق في حد سواء تحت ظروف الكشف عن الكلام في المجال والمجال عبر المجال، وإدخال نهج SVM يسمح بتحسين نتائج أحدث من الفن عند دمجها مع نماذج التعلم العميق من خلال غالبية بسيطةفرقة التصويت.يرجع التحسن أساسا إلى انخفاض معدل إيجابي كاذب.
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية، نوضح تجريبيا أن الأداء يتحلل بشكل كبير عند الاستعلام عن نموذج الفيديو النصي متعدد اللغات مع جمل غير إنجليزية. لمعالجة هذه المشكلة، نقدم استراتيجية متعددة الاستخدامات متعددة الاستخدامات متعددة اللغات، وجمع مجموعة بيانات تعليمية متعددة اللغات متعددة اللغات (متعدد HOWTO100M) للتدريب المسبق. تشير التجارب في VTT إلى أن طريقتنا تعمل بشكل كبير على تحسين البحث عن الفيديو في اللغات غير الإنجليزية دون شروح إضافية. علاوة على ذلك، عند توفر التعليقات التوضيحية متعددة اللغات، تتفوقت طريقة لدينا على خطوط الأساس الحديثة بواسطة هامش كبير في البحث عن نص متعدد اللغات للفيديو على VTT و Vatex؛ وكذلك في البحث النص متعدد اللغات إلى الصورة على multi30k. يتوفر نموذجنا ومتعدد HOWTO100M على http://github.com/berniebear/multi-ht100m.
في هذه الورقة، نصف التجارب المصممة لتقييم تأثير الميزات المصنوعة من النسيج والعاطفة على الكشف عن الكلام الكراهية: مهمة تصنيف المحتوى النصي في فئات الكلام الكراهية أو غير الكراهية. تجري تجاربنا لمدة ثلاث لغات - اللغة الإنجليزية والسلوفين والهولندية - سواء في النطاق داخل المجال والمجازات، وتهدف إلى التحقيق في خطاب الكراهية باستخدام ميزات النموذجتين الظواهر اللغوية: أسلوب كتابة محتوى الوسائط الاجتماعية البغيضة تعمل كمستخدم Word كدالة على يد واحدة، وتعبير العاطفة في الرسائل البغيضة من ناحية أخرى. نتائج التجارب التي تحتوي على ميزات نموذج مجموعات مختلفة من هذه الظواهر تدعم فرضيتنا أن الميزات الأسيزية والعاطفية هي مؤشرات قوية لخطاب الكراهية. تظل مساهمتها مستمرة فيما يتعلق باختلاف المجال واللغة. نظظ أن مزيج من الميزات التي تتفوقت الظواهر المستهدفة على الكلمات والشخصيات N-Gram الميزات بموجب ظروف عبر المجال، وتوفر دفعة كبيرة لنماذج التعلم العميق، والتي تحصل حاليا على أفضل النتائج، عند دمجها في مجموعة واحدة وبعد

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا