ترغب بنشر مسار تعليمي؟ اضغط هنا

في هذه الورقة، ندرس التحيز العرقي وكيف يختلف عبر اللغات عن طريق تحليل التحيز الإثني والتخفيف من التحيز الإثني في بيرت أحادي اللغة الإنجليزية والألمانية والإسبانية والكورية والتركية والصينية.لاحظ وتحديد التحيز العرقي، ونحن نطور مترا مربعا يسمى درجة ال تحيز الفئرانية.ثم نقترح طريقتين للتخفيف؛أولا باستخدام نموذج متعدد اللغات، والثاني باستخدام محاذاة الكلمات السياقية من نماذج أحادية.قارن أساليبنا المقترحة مع بيرت أحادي الأجل وإظهار أن هذه الأساليب تخفف بشكل فعال التحيز العرقي.أي من الطريقتين يعملان بشكل أفضل يعتمد على مقدار موارد NLP المتاحة لهذه اللغة.نحن بالإضافة إلى تجربة اللغة العربية واليونانية للتحقق من أن أساليبنا المقترحة تعمل من أجل مجموعة متنوعة واسعة من اللغات.
غالبا ما يتم تحديد موكب النموذج إلى التحيز من خلال التعميم على مجموعات البيانات الخارجية المصممة بعناية.أساليب الدخل الحديثة في فهم اللغة الطبيعية (NLU) تحسين الأداء على مجموعات البيانات هذه عن طريق الضغط على النماذج في تحقيق تنبؤات غير متحيزة.الافتر اض الأساسي وراء هذه الأساليب هو أن هذا يؤدي أيضا إلى اكتشاف ميزات أكثر قوة في التمثيلات الداخلية للنموذج.نقترح إطارا عاما يستند إلى التحقيق العامة يسمح بتفسير ما بعد الهوك للتحيزات في طرازات اللغة، واستخدام نهج نظرية معلومات لقياس قابلية استخراج بعض التحيزات من تمثيلات النموذج.نقوم بتجربة العديد من مجموعات بيانات NLU والتحيزات المعروفة، وتظهر ذلك، مضادا بشكل حدسي، كلما دفع نموذج لغة أكثر نحو نظام ديبي، فإن التحيز الأكثر ترميزا بالفعل في تمثيلاته الداخلية.
أثار العمل الحديث مخاوف بشأن القيود المتأصلة للاحتجاج بالنص. في هذه الورقة، نوضح أولا أن الإبلاغ عن التحيز، ميل لا يذكر أن الواضح، هو أحد أسباب هذا القيد، ثم التحقيق في أي مدى يمكن للتدريب المتعدد الوسائط تخفيف هذه المشكلة. لإنجاز هذا، نحن 1) إنشاء م جموعة بيانات اللون (CODA)، مجموعة بيانات من توزيعات الألوان التي طالبي الإنسان 521 كائنات مشتركة؛ 2) استخدم Coda لتحليل ومقارنة توزيع الألوان الموجود في النص، والتوزيع الذي تم التقاطه بواسطة نماذج اللغة، وتصور الإنسان للون؛ و 3) التحقيق في اختلافات الأداء بين النماذج النصية فقط والنماذج متعددة الوسائط على CODA. تظهر نتائجنا أن توزيع الألوان التي يتعافها نموذج اللغة تعاد ترتبط بقوة أكبر بتوزيع غير دقيق موجود في نصا أكثر من الحقيقة الأرضية، مما يدعم الادعاء بأن الإبلاغ عن التحيز يؤثر سلبا على تدريب سلبي ويحد تدريبا بطبيعته على التدريب فقط. ثم نوضح أن النماذج متعددة الوسائط يمكن أن تستفيد من التدريب البصري لتخفيف هذه الآثار، مما يوفر وسيلة واعدة للبحث في المستقبل.
تعلم نماذج اللغة المدربة مسبقا تحيزات ضارة اجتماعيا من كورسا التدريب الخاصة بهم، وقد تكرر هذه التحيزات عند استخدامها للجيل.ندرس التحيزات الجنسانية المرتبطة بطل الرواية في القصص الناتجة النموذجية.قد يتم التعبير عن هذه التحيزات إما صراحة (لا تستطيع الم رأة أن تجمع ") أو ضمنيا (على سبيل المثال طابع الذكور غير المرغوب فيه يرشدها إلى مساحة وقوف السيارات).نحن نركز على التحيزات الضمنية واستخدام محرك منطق المنطقي للكشف عنها.على وجه التحديد، نستنتج وتحليل دوافع بطل الرواية، والسمات، والدول الذهنية، والآثار على الآخرين.تتماشى نتائجنا المتعلقة بالتحيزات الضمنية مع العمل المسبق الذي درس تحيزات صريحة، على سبيل المثال إظهار أن تصوير الأحرف الإناث يتركز حول المظهر، بينما تركز أرقام الذكور على الفكر.
غالبا ما تصل التقنيات الحالية لتخفيف DataSet Bias إلى نموذج متحيز لتحديد مثيلات منحازة. ثم يتم تخفيض دور هذه الحالات المتحيزة خلال تدريب النموذج الرئيسي لتعزيز متانة البيانات الخاصة به ببيانات خارج التوزيع. إن الافتراض الأساسي المشترك لهذه التقنيات ه و أن النموذج الرئيسي يتعامل مع حالات متحيزة بالمثل للنموذج المتحيز، في أنه سوف يلجأ إلى التحيزات كلما كان ذلك متاحا. في هذه الورقة، نوضح أن هذا الافتراض لا يمسك بشكل عام. نقوم بإجراء تحقيق حاسم على مجموعة من مجموعات عمليتين مشهورة في المجال، MNLI و FEVER، إلى جانب طريقتين للكشف عن مثيل متحيز، وإدخال جزئي ونماذج ذات سعة محدودة. تظهر تجاربنا أنه في حوالي الثلث إلى نصف الحالات، لا يتمكن النموذج المتحيز من التنبؤ بسلوك النموذج الرئيسي، مع إبرازها بواسطة الأجزاء المختلفة بشكل كبير من المدخلات التي يضمونها قراراتهم. بناء على التحقق الدليلي، نوضح أيضا أن هذا التقدير يتماشى للغاية مع التفسير البشري. تشير النتائج التي توصلنا إليها إلى أن ترزز المثيلات التي تم اكتشافها بواسطة طرق اكتشاف التحيز، وهي إجراءات تمارس على نطاق واسع، هي مضيعة لا لزوم لها من البيانات التدريبية. نطلق سرد علاماتنا لتسهيل الإنتاجية والبحوث المستقبلية.
تغطية إعلامية لها تأثير كبير على التصور العام للأحداث. ومع ذلك، فإن وسائل الإعلام هي في كثير من الأحيان منحازة. طريقة واحدة إلى المقالات الإخبارية Bias هي تغيير اختيار الكلمة. يعد التعريف التلقائي للتحيز من خلال اختيار Word صعبة، ويرجع ذلك أساسا إلى عدم وجود مجموعة بيانات قياسية ذهبية وتبعية عالية السياق. تقدم هذه الورقة فاتنة، وهي مجموعة بيانات قوية ومتنوعة تم إنشاؤها بواسطة خبراء مدربين، بحثا عن أبحاث وسائل الإعلام. نحن نحلل أيضا سبب أهمية وضع العلامات الخبيرة ضمن هذا المجال. توفر مجموعة البيانات الخاصة بنا جودة توضيحية أفضل واتفاقية أعلى معلقا من العمل الحالي. وهي تتألف من 3700 جمل متوازنة بين الموضوعات والمنافذ، تحتوي على تسميات وسائل الإعلام على مستوى الكلمة ومستوى الجملة. بناء على بياناتنا، نقدم أيضا وسيلة للكشف عن الجمل التي تحفز التحيز في مقالات إخبارية تلقائيا. يتم تدريب أفضل ما لدينا من النموذج المستند في بيرت المدرب مسبقا على كوربوس أكبر يتكون من ملصقات بعيدة. قم بضبط وتقييم النموذج على مجموعة البيانات الخاضعة للإشراف المقترحة، ونحن نحقق درجة ماكرو F1 من 0.804، مما يتفوق على الأساليب الحالية.
تم اعتبار تحيز التعرض مشكلة مركزية لنماذج اللغة التراجعية التلقائية (LM). وهذا يدعي أن المعلم يجبر سيؤدي إلى تشويه جيل وقت الاختبار تدريجيا بسبب تباين توليد التدريب. على الرغم من أن الكثير من الخوارزميات قد اقترحت تجنب التغلب على المعلم وبالتالي تخفي ف تحيز التعرض، إلا أن هناك ضئيل من العمل الذي يظهر مدى خطورة مشكلة تحيز التعرض في الواقع. في هذا العمل، نركز على مهمة توليد اللغة المفتوح العضوية، اقترح المقاييس لتحديد تأثير تحيز التعرض في جوانب الجودة والتنوع والاتساق. الحدس الرئيسي الخاص بنا هو أنه إذا قمت بإطعام بادئات بيانات الحقيقة الأرضية (بدلا من البادئات الناتجة عن النموذج نفسه) في النموذج واطلب من مواصلة الجيل، يجب أن يصبح الأداء أفضل بكثير لأن التناقض في توليد التدريب في البادئة إزالة. يتم إجراء التقييمات التلقائية والإنسانية في تجاربنا. على عكس الاعتقاد الشعبي بتحيز التعرض، نجد أن التشويه الناجم عن تناقض البادئة محدود، ولا يبدو أنه تدريجي خلال الجيل. علاوة على ذلك، يكشف تحليلنا عن قدرة مثيرة للاهتمام للانكماش الذاتي ل LM، والتي نفترض أنها تكافؤها لتكون مواجهة الآثار الضارة من تحيز التعرض.
إسناد التأليف هو مهمة تعيين وثيقة غير معروفة إلى مؤلف من مجموعة من المرشحين.في الماضي، تستخدم الدراسات في هذا المجال مجموعات بيانات التقييم المختلفة لإظهار فعالية الخطوات والميزات والنماذج مسبقا.ومع ذلك، فإن جزء صغير فقط من الأعمال يستخدم أكثر من مجم وعة بيانات لإثبات المطالبات.في هذه الورقة، نقدم مجموعة من مجموعات بيانات إيسبت الأمعاء المتنوعة للغاية، والتي تعميم نتائج التقييم بشكل أفضل من أبحاث إسناد التأليف.علاوة على ذلك، نقوم بتنفيذ مجموعة واسعة من نماذج تعلم الآلات المستخدمة سابقا وإظهار أن العديد من النهج تظهر عروضا مختلفة بشكل كبير عند تطبيقها على مجموعات بيانات مختلفة.ندرج نماذج لغة مدربة مسبقا، لأول مرة اختبرها في هذا المجال بطريقة منهجية.أخيرا، نقترح مجموعة من الدرجات المجمعة لتقييم جوانب مختلفة من جمع البيانات.
مع زيادة الطفرة الأخيرة في التطبيقات الاجتماعية التي تعتمد على الرسوم البيانية المعرفة، أصبحت الحاجة إلى التقنيات لضمان الإنصاف في الأساليب القائمة على KG واضحة بشكل متزايد. أظهرت الأعمال السابقة أن كلية كجمها عرضة للحيوانات الاجتماعية المختلفة، وقد اقترحت طرق متعددة لدخاناتها. ومع ذلك، في مثل هذه الدراسات، كان التركيز على تقنيات deviasing، في حين يتم تحديد العلاقات التي ستكون degiased يدويا من قبل المستخدم. نظرا لأن المواصفات اليدوية هي نفسها عرضة للتحيز الإدراكي البشري، فهناك حاجة إلى نظام قادر على قياس وفضح التحيزات، التي يمكن أن تدعم قرارات أكثر استنارة بشأن ما له ديبي. لمعالجة هذه الفجوة في الأدب، وصفنا إطارا لتحديد التحيزات الموجودة في Adments Graph Admings، بناء على مقاييس BIAS الرقمية. نوضح الإطار بثلاث تدابير تحيز مختلفة حول مهمة التنبؤ بالمهنة، ويمكن امتدت بمرونة لتعريفات وتطبيقات إضافية. يمكن بعد ذلك تسليم العلاقات التي يتم تمييزها على أنها منحازة إلى صانعي القرار للحكم على الدخل اللاحق.
أخبار وهمية تسبب أضرارا كبيرة في المجتمع.للتعامل مع هذه الأخبار المزيفة، تم إجراء العديد من الدراسات حول نماذج كشف البناء وترتيب مجموعات البيانات.معظم مجموعات بيانات الأخبار المزيفة تعتمد على فترة زمنية محددة.وبالتالي، فإن نماذج الكشف المدربة على مثل هذه البيانات لديها صعوبة في اكتشاف الأخبار الرواية المزيفة الناتجة عن التغييرات السياسية والتغيرات الاجتماعية؛قد ينتج عنهم إخراج متحيز من المدخلات، بما في ذلك أسماء شخص معين وأسماء تنظيمية.نشير إلى هذه المشكلة كتحيز DIACHRONIC لأنه سبب تاريخ إنشاء الأخبار في كل مجموعة بيانات.في هذه الدراسة، نؤكد التحيز، وخاصة الأسماء المناسبة بما في ذلك أسماء الشخص، من انحراف مظاهر العبارة في كل مجموعة بيانات.بناء على هذه النتائج، نقترح طرق الاخفاء باستخدام Wikidata للتخفيف من تأثير أسماء الشخص والتحقق من صحة ما إذا كانوا يقومون بإجراء نماذج الكشف عن الأخبار وهمية قوية من خلال التجارب مع بيانات داخل المجال والخروج.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا