ترغب بنشر مسار تعليمي؟ اضغط هنا

تفتح الأسئلة الاستخراجية المفتوحة الإجابة تعمل بشكل جيد على البيانات النصية من خلال استرداد النصوص المرشحة أولا ثم استخراج الإجابة من هؤلاء المرشحين. ومع ذلك، لا يمكن الإجابة على بعض الأسئلة بالنص وحدها ولكنها تتطلب معلومات مخزنة في الجداول. في هذه ا لورقة، نقدم نهج لاستعادة كلا النصين والجداول ذات الصلة بالسؤال من خلال ترميز النصوص والطاولات والأسئلة في مساحة متجه واحدة. تحقيقا لهذه الغاية، نقوم بإنشاء مجموعة بيانات جديدة متعددة الوسائط بناء على مجموعات بيانات النصوص والجدول من العمل ذي الصلة ومقارنة أداء استرجاع مخطط ترميز مختلفة. نجد أن تضمين ناقلات كثيفة نماذج المحولات تتفوق على تضمين متفرق في أربع مجموعات من مجموعات بيانات تقييم. مقارنة نماذج تضمين كثيفة مختلفة، تزيد TRI-Encoders مع ترميز واحد لكل سؤال ونص وجدول أداء استرجاع مقارنة بالتشفيات الثنائية مع ترميز واحد للحصول على سؤال واحد لكل من النص والجداول. نطلق سراح مجموعة بيانات متعددة الوسائط التي تم إنشاؤها حديثا للمجتمع بحيث يمكن استخدامها للتدريب والتقييم.
نماذج الإجابة على الأسئلة (QA) تستخدم أنظمة المسترد والقارئ للإجابة على الأسئلة.يمكن الاعتماد على البيانات التدريبية من قبل أنظمة ضمان الجودة أو تعكس عدم المساواة من خلال ردودهم.يتم تدريب العديد من نماذج QA، مثل تلك الخاصة ب DataSet Squad، على مجموعة فرعية من مقالات ويكيبيديا التي تشفص لتحيزاتها الخاصة وإعادة إنتاج عدم المساواة في العالم الحقيقي.فهم كيفية تأثير البيانات التدريبية على التحيز في أنظمة ضمان الجودة يمكن أن تبلغ الأساليب لتخفيف عدم المساواة.نقوم بتطوير مجموعتين من الأسئلة لأسئلة النطاق المغلقة والفتوة على التوالي، والتي تستخدم أسئلة غامضة لتحقيق نماذج QA للتحيز.نطعم ثلاثة أنظمة ضمان الجودة في التعلم العميق مع مجموعات الأسئلة الخاصة بنا وتقييم الردود على التحيز عبر المقاييس.باستخدام مقاييسنا، نجد أن نماذج QA المجال المفتوحة تضخيم التحيزات أكثر من نظيرهم المغلقة من النطاق واقتراح أن يتحيزات في سطح المسترد بسهولة أكبر بسبب حرية الاختيار أكبر.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا