ترغب بنشر مسار تعليمي؟ اضغط هنا

نهج شبه مشغل للكشف عن التعليقات السامة

A Semi-Supervised Approach to Detect Toxic Comments

361   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحتوي التعليقات السامة على أشكال لغة غير مقبولة مستهدفة نحو مجموعات أو أفراد.تصبح هذه الأنواع من التعليقات مصدر قلق خطير للمنظمات الحكومية والمجتمعات عبر الإنترنت ومنصات وسائل التواصل الاجتماعي.على الرغم من وجود بعض الأساليب للتعامل مع اللغة غير المقبولة، فإن معظمها يركز على التعلم الإشراف واللغة الإنجليزية.في هذه الورقة، نتعامل مع اكتشاف التعليق السام كاستراتيجية شبه مشتركة على رسم بياني غير متجانس.نقوم بتقييم النهج على مجموعة بيانات سامة من اللغة البرتغالية، مما يتفوق على العديد من الأساليب القائمة على الرسم البياني وتحقيق نتائج تنافسية مقارنة بمناطق المحولات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذا العمل، نقدم نهجنا ونتائجنا لمهمة Semeval-2021 للكشف عن الفقاعات السامة.كان الهدف الرئيسي للمهمة هو تحديد المواقيات التي يمكن أن تعزى سمية نص معين.المهمة تحديا أساسا بسبب قيود اثنين: مجموعة بيانات التدريب الصغيرة وتوزيع الفئة غير المتوازنة.تقوم ورقتنا بالتحقيق في تقنيين، وتعلم شبه إشراف وتعلم مع فقدان النرد ضبط النفس، لمعالجة هذه التحديات.يتألف نظامنا المقدم (المرتبة التاسعة على متن القائد) من مجموعة من مختلف نماذج اللغة المحولات المدربة مسبقا تدربت باستخدام أي من التقنيات المذكورة أعلاه.
تهدف إلى توليد معجم البذور للاستخدام في مهام اللغة الطبيعية المصب والأساليب غير الخاضعة للرقابة لتحريض المعجم الثنائي اللغة قد حصلت على الكثير من الاهتمام في الأدبيات الأكاديمية مؤخرا. في حين أن الإعدادات المثيرة للاهتمام وغير المدمرة بالكامل غير واق عية؛ عادة ما تكون كميات صغيرة من البيانات ثنائية اللغة متاحة عادة بسبب وجود كوربوريل متوازي متعدد اللغات بشكل كبير، يمكن أن يخلق اللغويين كميات صغيرة من البيانات الموازية. في هذا العمل، نوضح نهجا فعالا من Bootstrapping لتعريفات المعجم الثنائية الشرفية شبه الإشراف التي تتمتع بنقاط القوة التكميلية لطريقين متباينين ​​لتحقيق المعجم الثنائي اللغة. في حين أن الطرق الإحصائية فعالة للغاية في حث أزواج الترجمة الصحيحة للكلمات التي تحدث في كثير من الأحيان في كوربوس موازية ومساحات تضمين أحادية مونولينغ لديها ميزة تم تدريبها على كميات كبيرة من البيانات، وبالتالي قد تحفز ترجمات دقيقة للكلمات غائبة عن الكائنات الصغيرة. من خلال الجمع بين هذه القوة النسبية وطريقتنا تحقق نتائج أحدث من الفن في 3 من 4 أزواج لغة في مجموعة اختبار VECMAP الصعبة التي تستخدم الحد الأدنى من الكميات من البيانات الموازية ودون الحاجة إلى قاموس الترجمة. نطلق تنفيذنا على www.blind-review.code.
الاستعارات في كل مكان في اللغة الطبيعية، ويتطلب الكشف عنها منطق سياقي حول ما إذا كان التعارض الدلالي موجود بالفعل.معظم العمل الحالي يعالج هذه المشكلة باستخدام نماذج السياق المدربة مسبقا.على الرغم من نجاحها، تتطلب هذه النماذج كمية كبيرة من البيانات ال مسمى ولا تستند إلى اللغة اللاحنة.في هذه الورقة، اقترحنا نموذجا متمربا مسبقا مسبقا (كيت) للكشف عن الاستعارة مع التعلم شبه الإشرافه.يستخدم نموذجنا أولا نموذجا مدربا مسبقا للحصول على تمثيل سياقي للكلمات المستهدفة وتوظف هدفا بسيطا لتعزيز المسافة المتزايدة بين الكلمات المستهدفة "الحواس الحرفية والجهزة المجازية القائمة على نظريات لغوية.علاوة على ذلك، نقترح استراتيجية بسيطة لجمع مثيلات مرشحة واسعة النطاق من كوربوس العام وتعميم النموذج عبر التدريب الذاتي.تبين تجارب واسعة أن كيت يحقق أداء أفضل ضد خطوط خطوط البيانات الحديثة على العديد من البيانات القياسية.
تتناول هذه الورقة تحديد تعليقات سامة ومشاركة وتحقيق الحقائق على وسائل التواصل الاجتماعي.استخدمنا مجموعة البيانات المتاحة من قبل منظمي المهمة المشتركة Germeval2021 التي تحتوي على أكثر من 3000 تعليقات Facebook المزروعة يدويا باللغة الألمانية.بالنظر إلى رابط المهام الثلاث، اتصلنا بالمشكلة باستخدام نماذج محولات محول كبيرة مدربة مسبقا وتعلم التعدد المتعدد.تشير نتائجنا إلى أن التعلم المتعدد يحقق الأداء متفوقا على نهج التعلم المهمة الأكثر شيوعا في المهام الثلاثة.نقدم أفضل أنظمةنا إلى Germeval-2021 تحت اسم الفريق WLV-RIT.
أدى توافر تمثيلات اللغة التي تعلمتها نماذج الشبكة العصبية العصبية الكبيرة (مثل Bert and Electra) إلى تحسينات في العديد من مهام معالجة اللغة الطبيعية المصب في السنوات الأخيرة.تختلف النماذج المحددة عادة في الأهداف المحددة، والبنية، ومجموعات البيانات ال تي تم تدريبها عليها والتي يمكن أن تؤثر على أداء المصب.في هذه المساهمة، نحن نضرب نماذج بيرت الألمانية والألمانية الكترا لتحديد السامة (الفرعية 1)، وجذابة (SubTask 2)، وتعليقات تدعي الحقائق (SubTask 3) في بيانات Facebook المقدمة من مسابقة Germeval 2021.أنشأنا مجموعة من هذه النماذج والتحقيق في ما إذا كان أداء التصنيف يعتمد على عدد أعضاء الفرقة وتكوينهم.على بيانات خارج العينة، حققت أفضل مجموعة لدينا درجة ماكرو F1 من 0.73 (لجميع المهام الفرعية)، وعشرات F1 من 0.72، 0.70، و 0.76 للحصول على المهام الفرعية 1، 2، و 3، على التوالي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا