تعلم Word Ageddings تحيزات ضمنية من العظميات اللغوية التي تم التقاطها إحصائيات Word في حدوثها. من خلال تمديد الطرق التي تقيس تحيزات تشبه الإنسان في Word Embeddings، نقدم Valnorm، وهي مهمة وطريقة تقييم جوهرية جديدة لتحديد البعد الافتراضي للتأثير في مجموعات الكلمة المصنوعة من البشرية من علم النفس الاجتماعي. نحن نطبق Valnorm على Adgeddings كلمة ثابتة من سبع لغات (الصينية والإنجليزية والألمانية والبولندية والبرتغالية والإسبانية والتركية) من النص الإنجليزي التاريخي الممتد إلى 200 عام. يحقق Valnorm دقة عالية باستمرار في تحديد تكاليف مجموعات كلمات المجموعة غير التمييزية وغير الاجتماعية. على وجه التحديد، يحقق Valnorm ترابط بيرسون ل R = 0.88 لعشرات الحكم البشري من التكافؤ لمدة 399 كلمة تم جمعها لإنشاء معايير ممتعة باللغة الإنجليزية. على النقيض من ذلك، نقيس القوالب النمطية الجنسانية باستخدام نفس مجموعة من embeddings Word وتجد أن التحيزات الاجتماعية تختلف عبر اللغات. تشير نتائجنا إلى أن جمعيات التكافؤ في كلمات الفريق غير التمييزية غير التمييزية تمثل جمعيات مشتركة على نطاق واسع، بسب سبع لغات وأكثر من 200 عام.
Word embeddings learn implicit biases from linguistic regularities captured by word co-occurrence statistics. By extending methods that quantify human-like biases in word embeddings, we introduce ValNorm, a novel intrinsic evaluation task and method to quantify the valence dimension of affect in human-rated word sets from social psychology. We apply ValNorm on static word embeddings from seven languages (Chinese, English, German, Polish, Portuguese, Spanish, and Turkish) and from historical English text spanning 200 years. ValNorm achieves consistently high accuracy in quantifying the valence of non-discriminatory, non-social group word sets. Specifically, ValNorm achieves a Pearson correlation of r=0.88 for human judgment scores of valence for 399 words collected to establish pleasantness norms in English. In contrast, we measure gender stereotypes using the same set of word embeddings and find that social biases vary across languages. Our results indicate that valence associations of non-discriminatory, non-social group words represent widely-shared associations, in seven languages and over 200 years.
References used
https://aclanthology.org/
How would you explain Bill Gates to a German? He is associated with founding a company in the United States, so perhaps the German founder Carl Benz could stand in for Gates in those contexts. This type of translation is called adaptation in the tran
State-of-the-art multilingual systems rely on shared vocabularies that sufficiently cover all considered languages. To this end, a simple and frequently used approach makes use of subword vocabularies constructed jointly over several languages. We hy
Neural Machine Translation (NMT) models have been observed to produce poor translations when there are few/no parallel sentences to train the models. In the absence of parallel data, several approaches have turned to the use of images to learn transl
While emotions are universal aspects of human psychology, they are expressed differently across different languages and cultures. We introduce a new data set of over 530k anonymized public Facebook posts across 18 languages, labeled with five differe
Recent studies have demonstrated that pre-trained cross-lingual models achieve impressive performance in downstream cross-lingual tasks. This improvement benefits from learning a large amount of monolingual and parallel corpora. Although it is genera