تعاني الكشف عن الكلام والكشف عن الألفاظ النبأ من البيانات الخاصة بالبيانات، وخاصة لغات أخرى غير الإنجليزية، بسبب الطبيعة الذاتية للمهام وتوافق التعليق التوضيحي الناتج عن الشركة الحالية.في هذه الدراسة، نقوم بتحديد الفئات الفرعية الملتزمة في وظائف Word وتمثيلات الجملة واستكشاف قدرة تعميمها على مجموعة متنوعة من المهام المستهدفة المماثلة والبعيدة في إعداد صفرية.تم إجراء هذا أحادي (ألماني) ويعرضا على المهام (الإنجليزية) ذات الصلة (باللغة الإنجليزية) عن كثب (باللغة الفرنسية) وغير ذات الصلة (العربية).نلاحظ أنه، في كل من المهام المستهدفة المماثلة والبعيدة وعلى جميع اللغات، فإن التمثيلات الفرعية القائمة على الفضاء الفرعي نقل أكثر فعالية من تمثيلات بيرت القياسية في إعداد الطلقة الصفرية، مع تحسينات بين F1 +10.9 و F1 +42.9 على خطوط الأساس عبر الكلاختبرت السيناريوهات أحادية الألوان واللغة اللغوية.
Hate speech and profanity detection suffer from data sparsity, especially for languages other than English, due to the subjective nature of the tasks and the resulting annotation incompatibility of existing corpora. In this study, we identify profane subspaces in word and sentence representations and explore their generalization capability on a variety of similar and distant target tasks in a zero-shot setting. This is done monolingually (German) and cross-lingually to closely-related (English), distantly-related (French) and non-related (Arabic) tasks. We observe that, on both similar and distant target tasks and across all languages, the subspace-based representations transfer more effectively than standard BERT representations in the zero-shot setting, with improvements between F1 +10.9 and F1 +42.9 over the baselines across all tested monolingual and cross-lingual scenarios.
References used
https://aclanthology.org/
Mainstream research on hate speech focused so far predominantly on the task of classifying mainly social media posts with respect to predefined typologies of rather coarse-grained hate speech categories. This may be sufficient if the goal is to detec
The framing of political issues can influence policy and public opinion. Even though the public plays a key role in creating and spreading frames, little is known about how ordinary people on social media frame political issues. By creating a new dat
Existing work on automated hate speech classification assumes that the dataset is fixed and the classes are pre-defined. However, the amount of data in social media increases every day, and the hot topics changes rapidly, requiring the classifiers to
The speech act of complaining is used by humans to communicate a negative mismatch between reality and expectations as a reaction to an unfavorable situation. Linguistic theory of pragmatics categorizes complaints into various severity levels based o
This paper describes the Helsinki--Ljubljana contribution to the VarDial 2021 shared task on social media variety geolocation. Following our successful participation at VarDial 2020, we again propose constrained and unconstrained systems based on the