ترغب بنشر مسار تعليمي؟ اضغط هنا

إظهار التحيز في سؤال الرد النماذج من خلال الغموض

Eliciting Bias in Question Answering Models through Ambiguity

286   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نماذج الإجابة على الأسئلة (QA) تستخدم أنظمة المسترد والقارئ للإجابة على الأسئلة.يمكن الاعتماد على البيانات التدريبية من قبل أنظمة ضمان الجودة أو تعكس عدم المساواة من خلال ردودهم.يتم تدريب العديد من نماذج QA، مثل تلك الخاصة ب DataSet Squad، على مجموعة فرعية من مقالات ويكيبيديا التي تشفص لتحيزاتها الخاصة وإعادة إنتاج عدم المساواة في العالم الحقيقي.فهم كيفية تأثير البيانات التدريبية على التحيز في أنظمة ضمان الجودة يمكن أن تبلغ الأساليب لتخفيف عدم المساواة.نقوم بتطوير مجموعتين من الأسئلة لأسئلة النطاق المغلقة والفتوة على التوالي، والتي تستخدم أسئلة غامضة لتحقيق نماذج QA للتحيز.نطعم ثلاثة أنظمة ضمان الجودة في التعلم العميق مع مجموعات الأسئلة الخاصة بنا وتقييم الردود على التحيز عبر المقاييس.باستخدام مقاييسنا، نجد أن نماذج QA المجال المفتوحة تضخيم التحيزات أكثر من نظيرهم المغلقة من النطاق واقتراح أن يتحيزات في سطح المسترد بسهولة أكبر بسبب حرية الاختيار أكبر.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحقق نماذج الرد على الأسئلة النصية الحالية (QA) أداء قوي على مجموعات اختبار داخل المجال، ولكن في كثير من الأحيان القيام بذلك عن طريق تركيب أنماط المستوى السطحي، لذلك فشلوا في التعميم لإعدادات خارج التوزيع. لجعل نظام ضمان الجودة أكثر قوة ومفهومة، نقوم بالنماذج النموذجية في الإجابة كمشكلة محاذاة. نحن نحلل كل من السؤال والسياق إلى وحدات أصغر بناء على التمثيلات الدلالية خارج الرف (هنا، الأدوار الدلالية)، ومحاذاة السؤال إلى مجموعة فرعية من السياق من أجل العثور على الجواب. نقوم بصياغة نموذجنا كإدارة منظمة تنظم، مع درجات المحاذاة المحسوبة عبر Bert، ويمكننا تدريب نهاية إلى نهاية على الرغم من استخدام شعاع البحث عن الاستدلال التقريبي. يتيح لنا استخدامنا للتويات الصريحة استكشاف مجموعة من القيود التي يمكننا حظرها أنواع معينة من السلوك النموذجي السيئ الناشئ في إعدادات المجال عبر. علاوة على ذلك، من خلال التحقيق في الاختلافات في الدرجات عبر الإجابات المحتملة المختلفة، يمكننا أن نسعى لفهم جوانب معينة من المدخلات التي تقدم النموذج لاختيار الإجابة دون الاعتماد على تقنيات تفسير ما بعد المخصص. نحن ندرب نموذجنا على فرقة V1.1 واختبرها على العديد من مجموعات بيانات الخصومة والخروج. تشير النتائج إلى أن طرازنا أكثر قوة من طراز Bert QA القياسي، والقيود المستمدة من درجات المحاذاة تسمح لنا بالتنازل بفعالية من التغطية والدقة بشكل فعال.
نحن نتعامل مع استجابة سؤال متعددة الاختيار.الحصول على معرفة المنطقية ذات الصلة بالسؤال والخيارات يسهل الاعتراف بالإجابة الصحيحة.ومع ذلك، تعاني نماذج التفكير الحالية من الضوضاء في المعرفة المستردة.في هذه الورقة، نقترح طريقة ترميز جديدة قادرة على إجراء الاعتراض والتصفية الناعمة.وهذا يساهم في حصاد وامتصاص المعلومات التمثيلية مع تدخل أقل من الضوضاء.نقوم بتجربة commonsenseqa.توضح النتائج التجريبية أن طريقتنا تعطي تحسينات كبيرة ومتسقة مقارنة بخدمات الأساس والقاعدة القائمة على روبرتا وألبرت.
أدت طرازات اللغة الكبيرة المدربة مسبقا (PLMS) إلى نجاح كبير في مهام الإجابة على الأسئلة المختلفة (QA) في أزياء نهاية إلى نهاية.ومع ذلك، تم إيلاء القليل من الاهتمام وفقا لمعرفة المعرفة المنطقية لتمييز مهام ضمان الجودة هذه.في هذا العمل، اقترحنا تصنيف ا لدلالات اللازمة لهذه المهام باستخدام SocialIQA كمثال.بناء على فئات المعرفة الاجتماعية الخاصة بنا المسمى DataSet على رأس SocialiQa، نربط نماذج QA العصبية لدمج فئات المعرفة الاجتماعية هذه ومعلومات العلاقة بين قاعدة المعرفة.على عكس العمل السابق، نلاحظ نماذجنا مع تصنيفات دلالية للمعرفة الاجتماعية يمكن أن تحقق أداء مماثل مع نموذج بسيط نسبيا وحجم أصغر مقارنة بالمناهج المعقدة الأخرى.
تم إظهار نماذج الإجابة على الأسئلة (QA) للحصول على فهم القراءة لاستغلال تحيزات محددات غير مقصودة مثل السؤال - التداخل المعجمي السياق. هذا يعيق نماذج ضمان الجودة من المعمم إلى العينات الممثلة تمثيلا مثل الأسئلة ذات التداخل المعجمي المنخفض. يمكن أن يكو ن جيل السؤال (QG)، وهي طريقة لتعزيز مجموعات بيانات QA، حل تدهور الأداء إذا كان QG يمكن أن Debias QA بشكل صحيح. ومع ذلك، نكتشف أن نماذج QG العصبية الأخيرة متحيزة نحو توليد الأسئلة ذات التداخل المعجمي العالي، والتي يمكن أن تضخيم تحيز DataSet. علاوة على ذلك، يكشف تحليلنا أن تكبير البيانات مع نماذج QG هذه تضعف بشكل متكرر الأداء على الأسئلة مع التداخل المعجمي المنخفض، مع تحسين ذلك على الأسئلة ذات التداخل المعجمي العالي. لمعالجة هذه المشكلة، نستخدم نهج مرادف يستند إلى استبدال أسئلة زيادة التداخل المعجمي المنخفض. نوضح أن نهج تكبير البيانات المقترح بسيط ولكنه فعال في التخفيف من مشكلة التدهور مع الأمثلة الاصطناعية 70K فقط.
تعلم نماذج اللغة المدربة مسبقا تحيزات ضارة اجتماعيا من كورسا التدريب الخاصة بهم، وقد تكرر هذه التحيزات عند استخدامها للجيل.ندرس التحيزات الجنسانية المرتبطة بطل الرواية في القصص الناتجة النموذجية.قد يتم التعبير عن هذه التحيزات إما صراحة (لا تستطيع الم رأة أن تجمع ") أو ضمنيا (على سبيل المثال طابع الذكور غير المرغوب فيه يرشدها إلى مساحة وقوف السيارات).نحن نركز على التحيزات الضمنية واستخدام محرك منطق المنطقي للكشف عنها.على وجه التحديد، نستنتج وتحليل دوافع بطل الرواية، والسمات، والدول الذهنية، والآثار على الآخرين.تتماشى نتائجنا المتعلقة بالتحيزات الضمنية مع العمل المسبق الذي درس تحيزات صريحة، على سبيل المثال إظهار أن تصوير الأحرف الإناث يتركز حول المظهر، بينما تركز أرقام الذكور على الفكر.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا