نحن ندرس مهمة وضع العلامات السرية أو السمية المحجوبة في المحادثات عبر الإنترنت.أبرز البحث المسبق الصعوبة في إنشاء نماذج اللغة التي تعترف بالسمية الدقيقة مثل الأصغرات.تؤكد تحقيقاتنا بشكل أكبر على صعوبة تحليل هذه الملصقات بشكل موثوق من الفئات الجماعية عبر الجماعة الجماعية.نقدم مجموعة بيانات أولية، وسمية coverttox، والتي تهدف إلى تحديد وتصنيف هذه التعليقات من قالب Rater المكرر.أخيرا، نحن نغلق نموذج Bert Transk-Domain Bert لتصنيف تعليقات هجومية سائبة ومقارنة مع خطوط الأساس الحالية.
We study the task of labeling covert or veiled toxicity in online conversations. Prior research has highlighted the difficulty in creating language models that recognize nuanced toxicity such as microaggressions. Our investigations further underscore the difficulty in parsing such labels reliably from raters via crowdsourcing. We introduce an initial dataset, COVERTTOXICITY, which aims to identify and categorize such comments from a refined rater template. Finally, we fine-tune a comment-domain BERT model to classify covertly offensive comments and compare against existing baselines.
المراجع المستخدمة
https://aclanthology.org/
يعد Growdsourcing من غير الخبراء أحد أكثر الطرق شيوعا لجمع البيانات والشروح في NLP. على الرغم من أن هذه الأداة الأساسية في NLP، إلا أن استخدام الجماعة الجماعية يسترشد إلى حد كبير بالممارسات المشتركة والخبرة الشخصية للباحثين. يظل تطوير نظرية الاستخدام
توضح هذه الورقة أن تجميع التوقعات الجماعية التجميعية تستفيد من نمذجة المبررات المكتوبة المقدمة من المتنبئين.تشير تجاربنا إلى أن الأساسيات الأهمية والتصويت المرجحة تنافسية، وأن المبررات المكتوبة مفيدة لاستدعاء سؤال طوال حياته إلا في الربع الأخير.نقوم
في حين أن العديد من خطوط أنابيب NLP تفترض أن النصوص النظيفة النظيفة، فإن العديد من النصوص التي نواجهها في البرية، بما في ذلك الغالبية العظمى من المستندات القانونية، ليست نظيفة للغاية، حيث يجري العديد منهم وثائق منظم بصريا (VSDS) مثل PDF. تقوم الأدوات
تستخدم منصات الشبكة الاجتماعية عموما لمشاركة المحتوى الإيجابي والبناء والرائعة. ومع ذلك، في الآونة الأخيرة، غالبا ما يتعرض الناس على المحتوى المرفوض مثل التهديد وهجمات الهوية أو خطاب الكراهية أو الإهانات أو النصوص الفاحشة أو الملاحظات الهجومية أو الب
في هذه الورقة، نركز على تحسين جودة الملخص الذي تم إنشاؤه بواسطة أنظمة تلخيص الحوار المبشور العصبي.على الرغم من أن طرازات اللغة المدربة مسبقا تولد نتائج رائعة واعدة، إلا أنها لا تزال تحديا لتلخيص محادثة المشاركين المتعددين منذ أن تتضمن الملخص وصفا للو