تصنيف النص هو أداة مركزية في NLP. ومع ذلك، عندما ترتبط الفصول المستهدفة بشدة مع السمات النصية الأخرى، يمكن أن تلتقط نماذج تصنيف النصوص "ميزات" خاطئة، مما يؤدي إلى التعميم والتحيزات السيئة. في تحليل وسائل التواصل الاجتماعي، هذه المشكلة أسطح فئات المستخدمين الديموغرافية مثل اللغة أو الموضوع أو الجنس، والتي تؤثر على إنشاء نص إلى حد كبير. وقد ادعى تدريب الخصم لتخفيف هذه المشكلة، لكن التقييم الشامل مفقود. في هذه الورقة، نقوم بتجربة تصنيف النص للسمات المرتبطة بموضوع وثائق ومؤلف الجنس، باستخدام جثة متوازية متعددة اللغات متعددة اللغات من نصوص TED TALK. النتائج التي توصلنا إليها هي: (أ) يكون المصنفين الفرديين للموضوع والجنس المؤلف متحيز بالفعل؛ (ب) ديوان مع أعمال التدريب المشددي للموضوع، ولكنها تنهار المؤلف الجنس؛ (ج) تختلف نتائج ديوان الجنسين عبر اللغات. نفسر النتيجة من حيث تداخل مساحة الميزة، وتسليط الضوء على دور تحقيق السطح اللغوي للفصول المستهدفة.
Text classification is a central tool in NLP. However, when the target classes are strongly correlated with other textual attributes, text classification models can pick up wrong'' features, leading to bad generalization and biases. In social media analysis, this problem surfaces for demographic user classes such as language, topic, or gender, which influence the generate text to a substantial extent. Adversarial training has been claimed to mitigate this problem, but thorough evaluation is missing. In this paper, we experiment with text classification of the correlated attributes of document topic and author gender, using a novel multilingual parallel corpus of TED talk transcripts. Our findings are: (a) individual classifiers for topic and author gender are indeed biased; (b) debiasing with adversarial training works for topic, but breaks down for author gender; (c) gender debiasing results differ across languages. We interpret the result in terms of feature space overlap, highlighting the role of linguistic surface realization of the target classes.
References used
https://aclanthology.org/
With the advent of contextualized embeddings, attention towards neural ranking approaches for Information Retrieval increased considerably. However, two aspects have remained largely neglected: i) queries usually consist of few keywords only, which i
We train neural models for morphological analysis, generation and lemmatization for morphologically rich languages. We present a method for automatically extracting substantially large amount of training data from FSTs for 22 languages, out of which
Representation learning is widely used in NLP for a vast range of tasks. However, representations derived from text corpora often reflect social biases. This phenomenon is pervasive and consistent across different neural models, causing serious conce
Unsupervised translation has reached impressive performance on resource-rich language pairs such as English-French and English-German. However, early studies have shown that in more realistic settings involving low-resource, rare languages, unsupervi
نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائ