تعاني الكشف عن الكلام والكشف عن الألفاظ النبأ من البيانات الخاصة بالبيانات، وخاصة لغات أخرى غير الإنجليزية، بسبب الطبيعة الذاتية للمهام وتوافق التعليق التوضيحي الناتج عن الشركة الحالية.في هذه الدراسة، نقوم بتحديد الفئات الفرعية الملتزمة في وظائف Word وتمثيلات الجملة واستكشاف قدرة تعميمها على مجموعة متنوعة من المهام المستهدفة المماثلة والبعيدة في إعداد صفرية.تم إجراء هذا أحادي (ألماني) ويعرضا على المهام (الإنجليزية) ذات الصلة (باللغة الإنجليزية) عن كثب (باللغة الفرنسية) وغير ذات الصلة (العربية).نلاحظ أنه، في كل من المهام المستهدفة المماثلة والبعيدة وعلى جميع اللغات، فإن التمثيلات الفرعية القائمة على الفضاء الفرعي نقل أكثر فعالية من تمثيلات بيرت القياسية في إعداد الطلقة الصفرية، مع تحسينات بين F1 +10.9 و F1 +42.9 على خطوط الأساس عبر الكلاختبرت السيناريوهات أحادية الألوان واللغة اللغوية.
Hate speech and profanity detection suffer from data sparsity, especially for languages other than English, due to the subjective nature of the tasks and the resulting annotation incompatibility of existing corpora. In this study, we identify profane subspaces in word and sentence representations and explore their generalization capability on a variety of similar and distant target tasks in a zero-shot setting. This is done monolingually (German) and cross-lingually to closely-related (English), distantly-related (French) and non-related (Arabic) tasks. We observe that, on both similar and distant target tasks and across all languages, the subspace-based representations transfer more effectively than standard BERT representations in the zero-shot setting, with improvements between F1 +10.9 and F1 +42.9 over the baselines across all tested monolingual and cross-lingual scenarios.
المراجع المستخدمة
https://aclanthology.org/
ركزت الأبحاث السائدة على خطاب الكراهية في الغالب في الوقت الحالي في مهمة تصنيف وظائف وسائل التواصل الاجتماعي بشكل رئيسي فيما يتعلق بطبقات نطاقات الكراهية المحددة مسبقا إلى حد ما.قد يكون هذا كافيا إذا كان الهدف هو اكتشاف وحذف الوظائف اللغوية المسيئة.و
يمكن أن تؤثر تأطير القضايا السياسية على السياسة والرأي العام.على الرغم من أن الجمهور يلعب دورا رئيسيا في إنشاء وإلقاء الإطارات، إلا أن القليل يعرف عن كيفية القضايا السياسية للأشخاص العاديين في إطار وسائل الإعلام الاجتماعية.من خلال إنشاء مجموعة بيانات
يفترض العمل الحالي على تصنيف نطق الكراهية الآلي أن DataSet ثابتة ويتم تعريف الفصول الدراسية مسبقا.ومع ذلك، فإن مقدار البيانات في وسائل التواصل الاجتماعي يزيد كل يوم، وتتغير الموضوعات الساخنة بسرعة، مما يتطلب من المصنفين أن تكون قادرة على التكيف باستم
يستخدم عمل خطاب الشكوى من قبل البشر للتواصل مع عدم وجود عدم تطابق سلبي بين الواقع والتوقعات كرد فعل على وضع غير موات. تصنف النظرية اللغوية للبراغماتية شكاوى إلى مستويات شدة مختلفة تعتمد على تهديد الوجه الذي يرغب فيه الشكوى في القيام به. هذا مفيد بشكل
تصف هذه الورقة مساهمة Helsinki - Ljubljana المهمة المشتركة في عام 2021 في مجال تحديد الموقع الجغرافي للوسائط الجغرافية الاجتماعية.بعد مشاركتنا الناجحة في 32020، اقترحنا مرة أخرى أنظمة مقيدة وغير مقيدة بناء على بنية بيرت.في هذه الورقة، نقوم بالإبلاغ ع