ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم عبر اللغات التعلم للكشف عن الكلام الكراهية

Cross-Lingual Transfer Learning for Hate Speech Detection

708   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن نتطلع إلى مهمة اكتشاف الكلام الكراهية التلقائي لغات الموارد المنخفضة.بدلا من جمع وإشراف بيانات خطاب الكراهية الجديدة، نوضح كيفية استخدام التعلم عبر التحويلات عبر اللغات للاستفادة من البيانات الموجودة بالفعل من لغات الموارد العالية.باستخدام مصنفات مقرها Word من Word، نحقق الأداء الجيد على اللغة المستهدفة من خلال التدريب فقط على مجموعة بيانات المصدر.باستخدام نظامنا المنقول، نحن Bootstrap على بيانات اللغة المستهدفة غير المستهدفة، وتحسين أداء نهج النقل المتبادل القياسي.نحن نستخدم اللغة الإنجليزية كلغة موارد عالية والألمانية مثل اللغة المستهدفة التي تتوفر فقط كمية صغيرة من كورسا المشروح.تشير نتائجنا إلى أن التعلم عبر التحويلات الشاملة للتعلم مع نهجنا للاستفادة من البيانات الإضافية غير المسبقة هي وسيلة فعالة لتحقيق الأداء الجيد على لغات مستهدفة منخفضة الموارد دون الحاجة إلى أي شروح لغة الهدف.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم نظاما للصفر بالرصاص لغة هجومية عبر اللغات وتصنيف الكلام الكراهية.تم تدريب النظام على مجموعات البيانات الإنجليزية واختباره في مهمة اكتشاف محتوى خطاب الكراهية والوسائط الاجتماعية الهجومية في عدد من اللغات دون أي تدريب إضافي.تظهر التجارب قدرة رائعة لكلا النموذجين للتعميم من اللغة الإنجليزية إلى لغات أخرى.ومع ذلك، هناك فجوة متوقعة في الأداء بين النماذج التي تم اختبارها عبر اللغات والنماذج الأولية.يتوفر أفضل نموذج أداء (مصنف المحتوى الهجومي) عبر الإنترنت ك api بقية.
تقلص نهج التحيز مع اعتماد النماذج على ميزات البيانات الحساسة للبيانات، مثل رموز المجموعة الاجتماعية (SGTS)، مما يؤدي إلى تنبؤات متساوية عبر الميزات الحساسة.ومع ذلك، في الكشف عن الكلام الكراهية، قد يتجاهل تكالير التعادل النموذجي الاختلافات المهمة بين الفئات الاجتماعية المستهدفة، حيث يمكن أن يحتوي خطاب الكراهية على لغة نمطية محددة لكل رقاقة.هنا، لاتخاذ لغة محددة حول كل رقص في الاعتبار، نعتمد على الإنصاف المتعارض واستكمال التنبؤات فيما بينها، ولدت من خلال تغيير SGTS.تقوم طريقتنا بتقييم التشابه في احتمالية الجملة (عبر نماذج اللغة المدربة مسبقا) بين الوسائل المتعددة، لعلاج SGTS على قدم المساواة إلا في سياقات قابلة للتبديل.من خلال تطبيق اقتران Logit لتحقيق التوازن في المجموعة المحظورة من مواجهة المصنع لكل حالة، فإننا نحسن مقاييس الإنصاف مع الحفاظ على الأداء النموذجي في اكتشاف خطاب الكراهية.
في هذه الورقة، نصف التجارب المصممة لتقييم تأثير الميزات المصنوعة من النسيج والعاطفة على الكشف عن الكلام الكراهية: مهمة تصنيف المحتوى النصي في فئات الكلام الكراهية أو غير الكراهية. تجري تجاربنا لمدة ثلاث لغات - اللغة الإنجليزية والسلوفين والهولندية - سواء في النطاق داخل المجال والمجازات، وتهدف إلى التحقيق في خطاب الكراهية باستخدام ميزات النموذجتين الظواهر اللغوية: أسلوب كتابة محتوى الوسائط الاجتماعية البغيضة تعمل كمستخدم Word كدالة على يد واحدة، وتعبير العاطفة في الرسائل البغيضة من ناحية أخرى. نتائج التجارب التي تحتوي على ميزات نموذج مجموعات مختلفة من هذه الظواهر تدعم فرضيتنا أن الميزات الأسيزية والعاطفية هي مؤشرات قوية لخطاب الكراهية. تظل مساهمتها مستمرة فيما يتعلق باختلاف المجال واللغة. نظظ أن مزيج من الميزات التي تتفوقت الظواهر المستهدفة على الكلمات والشخصيات N-Gram الميزات بموجب ظروف عبر المجال، وتوفر دفعة كبيرة لنماذج التعلم العميق، والتي تحصل حاليا على أفضل النتائج، عند دمجها في مجموعة واحدة وبعد
اكتشاف الكلام الكراهية هو مجال أبحاث بنشاط مع مجموعة متنوعة من الأساليب المقترحة مؤخرا التي سمحت بدفع النتائج الحديثة.واحدة من تحديات هذه الأساليب الآلية - وهي نماذج التعلم العميق الحديثة - خطر الإيجابيات الخاطئة (أي، اتهامات كاذبة)، والتي قد تؤدي إل ى حجب أو إزالة محتوى وسائل التواصل الاجتماعي غير الضارة في التطبيقات مع تدخل المشرف القليلوبعدنحن نقيم نماذج التعلم العميق في حد سواء تحت ظروف الكشف عن الكلام في المجال والمجال عبر المجال، وإدخال نهج SVM يسمح بتحسين نتائج أحدث من الفن عند دمجها مع نماذج التعلم العميق من خلال غالبية بسيطةفرقة التصويت.يرجع التحسن أساسا إلى انخفاض معدل إيجابي كاذب.
يفترض العمل الحالي على تصنيف نطق الكراهية الآلي أن DataSet ثابتة ويتم تعريف الفصول الدراسية مسبقا.ومع ذلك، فإن مقدار البيانات في وسائل التواصل الاجتماعي يزيد كل يوم، وتتغير الموضوعات الساخنة بسرعة، مما يتطلب من المصنفين أن تكون قادرة على التكيف باستم رار مع البيانات الجديدة دون أن ننسى المعرفة المستفادة مسبقا.هذه القدرة، المشار إليها باسم التعلم مدى الحياة، أمر حاسم لتطبيق الكلمة الحقيقية من مصنف الكلاب الكراهية في وسائل التواصل الاجتماعي.في هذا العمل، نقترح التعلم مدى الحياة لتصنيف الكلام الكراهية على وسائل التواصل الاجتماعي.لتخفيف النسيان الكارثي، نقترح استخدام تعليم التمثيل التغيرات (VRL) جنبا إلى جنب مع وحدة الذاكرة المستندة إلى LB-Soinn (توازن الحركة النمو الذاتي التزايدي التزايدي).تجريبيا، نظهر أن الجمع بين التعلم التمثيل التغيرات ووحدة الذاكرة LB-Soinn يحقق أداء أفضل من تقنيات التعلم مدى الحياة المستخدمة بشكل شائع.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا