ترغب بنشر مسار تعليمي؟ اضغط هنا

DisenTangling وثيقة الموضوع والمؤلف الجنس في لغات متعددة: دروس للداخل الخصم

Disentangling Document Topic and Author Gender in Multiple Languages: Lessons for Adversarial Debiasing

107   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصنيف النص هو أداة مركزية في NLP. ومع ذلك، عندما ترتبط الفصول المستهدفة بشدة مع السمات النصية الأخرى، يمكن أن تلتقط نماذج تصنيف النصوص "ميزات" خاطئة، مما يؤدي إلى التعميم والتحيزات السيئة. في تحليل وسائل التواصل الاجتماعي، هذه المشكلة أسطح فئات المستخدمين الديموغرافية مثل اللغة أو الموضوع أو الجنس، والتي تؤثر على إنشاء نص إلى حد كبير. وقد ادعى تدريب الخصم لتخفيف هذه المشكلة، لكن التقييم الشامل مفقود. في هذه الورقة، نقوم بتجربة تصنيف النص للسمات المرتبطة بموضوع وثائق ومؤلف الجنس، باستخدام جثة متوازية متعددة اللغات متعددة اللغات من نصوص TED TALK. النتائج التي توصلنا إليها هي: (أ) يكون المصنفين الفرديين للموضوع والجنس المؤلف متحيز بالفعل؛ (ب) ديوان مع أعمال التدريب المشددي للموضوع، ولكنها تنهار المؤلف الجنس؛ (ج) تختلف نتائج ديوان الجنسين عبر اللغات. نفسر النتيجة من حيث تداخل مساحة الميزة، وتسليط الضوء على دور تحقيق السطح اللغوي للفصول المستهدفة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مع ظهور Advent of Store argeddings، زادت الاهتمام تجاه نهج التصنيف العصبي لاسترجاع المعلومات بشكل كبير. ومع ذلك، ظلت جائبتان مهمان إلى حد كبير: I) عادة ما تتكون الاستعلامات من عدد قليل من الكلمات الرئيسية فقط، مما يزيد من الغموض ويجعل سياقه أكثر صعوب ة، والثاني) أداء التصنيف العصبي على المستندات غير الإنجليزية لا يزال مرهقا بسبب نقص مجموعات البيانات المسمى. في هذه الورقة، نقدم سيدي (استرجاع المعلومات المحسنة) للتخفيف من المشكلتين من خلال الاستفادة من معلومات معنى النص. يكمن في جوهر نهجنا آلية توسيع عملية استعلام متعددة اللغات الرواية بناء على غزانة إحساس النصوص التي توفر تعريفات المعنى بأنها معلومات دلالية إضافية للاستعلام. الأهم من ذلك، نحن نستخدم الحواس كجسر عبر اللغات، وبالتالي السماح لطرازنا بأداء أفضل بكثير من بدائلها الخاضعة للإشراف وغير المعروضة عبر اللغات الفرنسية والألمانية والإيطالية والإسبانية على العديد من المعايير المفصيلة المفكف، بينما يتم تدريبها على بيانات Robust04 الإنجليزية فقط. نطلق سراح سيدي في https://github.com/sapienzanlp/sir.
نربط النماذج العصبية للتحليل المورفولوجي والجيل والليمون للغات الغنية بالمورفولوجيا.نقدم طريقة لاستخراج كمية كبيرة من البيانات التدريبية تلقائيا من FSTS لمدة 22 لغة، منها 17 مليار بالانقراض.تتبع النماذج العصبية نفس التشريع مثل FSTS من أجل تحقيقها لأن ظمة الاحتياطية مع FSTS.تم إصدار التعليمات البرمجية المصدر والنماذج والشطونات على Zenodo.
يستخدم تعليم التمثيل على نطاق واسع في NLP لمجموعة واسعة من المهام.ومع ذلك، غالبا ما تعكس التمثيلات المستمدة من Text Corpora التحيزات الاجتماعية.هذه الظاهرة منتشرة ومتسقة عبر نماذج عصبية مختلفة، مما تسبب في قلق شديد.تعتمد الأساليب السابقة في الغالب عل ى اتجاه محدد مسبقا أو مقدم من المستخدم أو يعاني من التدريب غير المستقر.في هذه الورقة، نقترح نموذجا للدوائر المنفذة من الخصومة إلى Decouple Decouple Socied Socials من التمثيلات المتوسطة المدربة على المهمة الرئيسية.نحن نهدف إلى Denoise معلومات التحيز أثناء التدريب على مهمة المصب، بدلا من إزالة التحيز الاجتماعي ومتابعة التمثيلات غير المتحيزة الثابتة.تظهر التجارب فعالية طريقتنا، سواء على تأثير الدخل وأداء المهمة الرئيسية.
وصلت الترجمة غير المزدئة إلى أداء مثير للإعجاب على أزواج اللغة الغنية بالموارد مثل اللغة الإنجليزية الفرنسية والإنجليزية - الألمانية. ومع ذلك، أظهرت الدراسات المبكرة أنه في بيئات أكثر واقعية تنطوي على الموارد المنخفضة، لغات نادرة، تؤدي الترجمة غير ال معينة بشكل سيئ، وتحقيق أقل من 3.0 بلو. في هذا العمل، نظير على أن تعددية اللغات أمر بالغ الأهمية لجعل أنظمة غير مخالفة عملية لإعدادات الموارد المنخفضة. على وجه الخصوص، نقدم نموذجا واحدا ل 5 لغات منخفضة الموارد (الغوجاراتية، كازاخ، النيبالية، السنهالية، والتركية) من وإلى اتجاهات اللغة الإنجليزية، والتي ترفع البيانات المتوازية غير المباشرة والمساعدة من أزواج لغة موارد أخرى عالية من خلال ثلاثة مخطط التدريب المرحلة. نحن نتفوق على جميع خطوط الأساس غير المدعومة الحالية له لهذه اللغات، وتحقيق مكاسب تصل إلى 14.4 بلو. بالإضافة إلى ذلك، نحن نتفوق خطوط خطوط خطوط خطوط خطوط أخرى تحت إشراف قوية لمختلف أزواج اللغات وكذلك تطابق أداء النموذج الحالي للإشراف على النيبالية والإنجليزية. نقوم بإجراء سلسلة من دراسات الاجتثاث لإثبات نطاقات نموذجنا بموجب درجات مختلفة من جودة البيانات، وكذلك لتحليل العوامل التي أدت إلى الأداء الفائق للنهج المقترح على النماذج التقليدية غير المعروضة.
نتيجةً للتطور الهائل في العلوم والتكنولوجيا، والانتشار الواسع للإنترنت، باتت المعرفة البشرية في متناول كل شخص منا. لكن ومع هذا الكم الهائل من المعلومات، اصبح القارئ مشتتا بين مصادر عديدة تجعله يضيع في هذا الفضاء الواسع. انفجار المعلومات هذا تطلب وسائ ل للسيطرة عليه تقوم بتنظيم هذه المعلومات وترتيبها تحت عناوين عريضة، وتتتبعها. من هنا بدء المجتمع التقني بالاتجاه نحو مجال جديد اطلق عليه اسم اكتشاف الموضوع وتتبعه. يطبق هذا المفهوم بشكل واسع في مجال شبكات التواصل الاجتماعي، الاخبار، المقالات العلمية وغيرها الكثير. ففي مجال الاخبار كثيرا ما ترى آلاف وكالات الاخبار تبث عشرات الاف القصص الاخبارية حول نفس الحدث، ما دفع البوابات الاخبارية وفي مقدمتها Google news لتطبيق نظام اكتشاف للموضوع وتتبعه. يعنى هذا النظام بمجموعة من المهام المعرفة من قبل منظمة DARPA، أولها مراقبة سيل من القصص النصية المتصلة لمعرفة الحدود الفاصلة بين كل قصة والاخرى، وتدعى تقطيع القصص، ثانيها مهمتها الاجابة على السؤال: هل تناقش قصتان معطاتان نفس الموضوع او الحدث؟ وتدعى اكتشاف الصلة. ثالثها معنية بمراقبة سيل من القصص لاكتشاف تلك التي تناقش موضوعا معرفا من قبل المستخدم، وتدعى بتتبع الموضوع. رابعها تهتم بالتعرف على القصص التي تناقش احداثا جديدة فور وصولها، وتدعى اكتشاف القصة الاولى. واخرها تدعى اكتشاف الموضوع، وهي مسؤولة عن فصل مجموعة من القصص المختلطة الى مواضيع، بدون اي معرفة مسبقة بهذه المواضيع، اي تجميع القصص التي تناقش موضوعا واحدا في نفس العنقود. نعمل من خلال هذا المشروع على تطبيق المهام الاربع الاخيرة وتقييمها. يتم استلام القصص في الزمن الحقيقي، اجراء معالجة مسبقة عليها (معالجة لغوية وغير ذلك)، ثم يتم تمثيل القصص بشكل اشعة وتوزين كلمات كل قصة، يتم بعدها اختيار مجموعة كلمات لتمثيل القصة. اما تمثيل المواضيع فنختبر اشكالا مختلفة، كالتمثيل الشعاعي او التمثيل بالقصص وغير ذلك. نناقش خلال هذا المشروع ايضاً استخدام معايير مختلفة لتمثيل القصص وقياس تشابهها، ونختبر استخدام عنوان القصة وتاريخها كمميزات بالإضافة الى مجموعة الكلمات. كما ونتحدث عن منهج خاص بنا لتقييس التشابهات بين القصص والتخفيف من تأثير عمليات اختيار العتبات في النظام، ونعرض التحسينات المذهلة التي يبديها هذا المنهج، والتي تمكن من بناء نظام اكتشاف موضوع وتتبعه، دون القلق حول تحديد العتبة اطلاقا، والذي لطالما كان يمثل التحدي الاكبر لهذا النوع من الانظمة. نتحدث عن تطبيقنا لخوارزميات العنقدة الاكثر تطورا في مهمة اكتشاف الموضوع، ونعرض كيفية قيامنا بتعديل مصفوفة التجاذب في خوارزمية العنقدة الطيفية المطروحة واستخدام طريقة تقييس مختلفة تم تكييفها مع حالة نظامنا، والتي ادت الى تحسين اداء العنقدة من 0.89 الى 0.97 مقاسا على F-measure

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا