الكشف عن اللغة المسيئة هو حقل ناشئ في معالجة اللغة الطبيعية تلقت قدرا كبيرا من الاهتمام مؤخرا.لا يزال نجاح الكشف التلقائي محدود.لا سيما، كشف اللغة المسيئة ضمنيا، أي لغة مسيئة لا تنقلها كلمات مسيئة (مثل dumbass أو حثالة)، لا تعمل بشكل جيد.في هذه الورقة الموضعية، نوضح لماذا تجعل مجموعات البيانات الحالية التعلم إساءة استخدام ضمني صعبة وما يجب تغييره في تصميم مثل هذه البيانات.جدال لاستراتيجية الأقسام والانقسام، نقدم قائمة فرعية من اللغة المسيئة الضمنيا وصياغة المهام والأسئلة البحثية للبحث في المستقبل.
Abusive language detection is an emerging field in natural language processing which has received a large amount of attention recently. Still the success of automatic detection is limited. Particularly, the detection of implicitly abusive language, i.e. abusive language that is not conveyed by abusive words (e.g. dumbass or scum), is not working well. In this position paper, we explain why existing datasets make learning implicit abuse difficult and what needs to be changed in the design of such datasets. Arguing for a divide-and-conquer strategy, we present a list of subtypes of implicitly abusive language and formulate research tasks and questions for future research.
المراجع المستخدمة
https://aclanthology.org/
في السنوات القليلة الماضية، تم اقتراح العديد من الطرق لبناء تضمين التوطين.كان الهدف العام هو الحصول على تمثيلات جديدة تدمج المعرفة التكميلية من مختلف المدينات المدربة مسبقا مما يؤدي إلى تحسين الجودة الشاملة.ومع ذلك، تم تقييم Enterpaintings Meta-embed
وضع تطوير الشبكات العصبية وتقنيات الاحتياطية العديد من أنظمة وضع العلامات على مستوى الجملة التي حققت أداء فائقا على المعايير النموذجية. ومع ذلك، فإن موضوع أقل مناقشة نسبيا هو ما إذا كانت معلومات السياق مزيد من المعلومات في أنظمة علامات التسجيل الحالي
المحادثات التي تهدف إلى تحديد التوصيات الجيدة هي تكرار الطبيعة. غالبا ما يعبر الناس عن تفضيلاتهم من حيث نقد التوصية الحالية (على سبيل المثال، لا يبدو جيدا لتاريخ "")، مما يتطلب درجة من الحس السليم للحصول على تفضيل يستنتج. في هذا العمل، نقدم طريقة لتح
يجسد جيل الحمدة التجريدي بعض التحديات الأكثر صعوبة في توليد الشعر، حيث يجب أن تخبر القصائد قصة في خمسة أسطر فقط، مع قيود على قافية وإجهاد وما متر.لمعالجة هذه التحديات، نقدم Limgen، وهو نظام رواية وأتمتة بالكامل لتوليد Limerick الذي يتفوق على نماذج ال
فهم عندما لا يوفر مقتطف النص معلومات سعية بعد هي جزء أساسي من اللغة الطبيعية Utnderstanding. العمل الحديث (Squad 2.0؛ Rajpurkar et al.، 2018) حاولت إحراز بعض التقدم في هذا الاتجاه من خلال إثراء بيانات الفريق الخاصة بمهمة ضمان الجودة الاستخراجية مع أس