تصنيف النص هو أداة مركزية في NLP. ومع ذلك، عندما ترتبط الفصول المستهدفة بشدة مع السمات النصية الأخرى، يمكن أن تلتقط نماذج تصنيف النصوص "ميزات" خاطئة، مما يؤدي إلى التعميم والتحيزات السيئة. في تحليل وسائل التواصل الاجتماعي، هذه المشكلة أسطح فئات المستخدمين الديموغرافية مثل اللغة أو الموضوع أو الجنس، والتي تؤثر على إنشاء نص إلى حد كبير. وقد ادعى تدريب الخصم لتخفيف هذه المشكلة، لكن التقييم الشامل مفقود. في هذه الورقة، نقوم بتجربة تصنيف النص للسمات المرتبطة بموضوع وثائق ومؤلف الجنس، باستخدام جثة متوازية متعددة اللغات متعددة اللغات من نصوص TED TALK. النتائج التي توصلنا إليها هي: (أ) يكون المصنفين الفرديين للموضوع والجنس المؤلف متحيز بالفعل؛ (ب) ديوان مع أعمال التدريب المشددي للموضوع، ولكنها تنهار المؤلف الجنس؛ (ج) تختلف نتائج ديوان الجنسين عبر اللغات. نفسر النتيجة من حيث تداخل مساحة الميزة، وتسليط الضوء على دور تحقيق السطح اللغوي للفصول المستهدفة.
Text classification is a central tool in NLP. However, when the target classes are strongly correlated with other textual attributes, text classification models can pick up wrong'' features, leading to bad generalization and biases. In social media analysis, this problem surfaces for demographic user classes such as language, topic, or gender, which influence the generate text to a substantial extent. Adversarial training has been claimed to mitigate this problem, but thorough evaluation is missing. In this paper, we experiment with text classification of the correlated attributes of document topic and author gender, using a novel multilingual parallel corpus of TED talk transcripts. Our findings are: (a) individual classifiers for topic and author gender are indeed biased; (b) debiasing with adversarial training works for topic, but breaks down for author gender; (c) gender debiasing results differ across languages. We interpret the result in terms of feature space overlap, highlighting the role of linguistic surface realization of the target classes.
المراجع المستخدمة
https://aclanthology.org/
مع ظهور Advent of Store argeddings، زادت الاهتمام تجاه نهج التصنيف العصبي لاسترجاع المعلومات بشكل كبير. ومع ذلك، ظلت جائبتان مهمان إلى حد كبير: I) عادة ما تتكون الاستعلامات من عدد قليل من الكلمات الرئيسية فقط، مما يزيد من الغموض ويجعل سياقه أكثر صعوب
نربط النماذج العصبية للتحليل المورفولوجي والجيل والليمون للغات الغنية بالمورفولوجيا.نقدم طريقة لاستخراج كمية كبيرة من البيانات التدريبية تلقائيا من FSTS لمدة 22 لغة، منها 17 مليار بالانقراض.تتبع النماذج العصبية نفس التشريع مثل FSTS من أجل تحقيقها لأن
يستخدم تعليم التمثيل على نطاق واسع في NLP لمجموعة واسعة من المهام.ومع ذلك، غالبا ما تعكس التمثيلات المستمدة من Text Corpora التحيزات الاجتماعية.هذه الظاهرة منتشرة ومتسقة عبر نماذج عصبية مختلفة، مما تسبب في قلق شديد.تعتمد الأساليب السابقة في الغالب عل
وصلت الترجمة غير المزدئة إلى أداء مثير للإعجاب على أزواج اللغة الغنية بالموارد مثل اللغة الإنجليزية الفرنسية والإنجليزية - الألمانية. ومع ذلك، أظهرت الدراسات المبكرة أنه في بيئات أكثر واقعية تنطوي على الموارد المنخفضة، لغات نادرة، تؤدي الترجمة غير ال
نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائ