ترغب بنشر مسار تعليمي؟ اضغط هنا

يمكن أن تشكك جيل ديبيا سؤال الإجابة النماذج؟دراسة حالة عن السؤال - التداخل المعجمي السياق

Can Question Generation Debias Question Answering Models? A Case Study on Question--Context Lexical Overlap

372   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تم إظهار نماذج الإجابة على الأسئلة (QA) للحصول على فهم القراءة لاستغلال تحيزات محددات غير مقصودة مثل السؤال - التداخل المعجمي السياق. هذا يعيق نماذج ضمان الجودة من المعمم إلى العينات الممثلة تمثيلا مثل الأسئلة ذات التداخل المعجمي المنخفض. يمكن أن يكون جيل السؤال (QG)، وهي طريقة لتعزيز مجموعات بيانات QA، حل تدهور الأداء إذا كان QG يمكن أن Debias QA بشكل صحيح. ومع ذلك، نكتشف أن نماذج QG العصبية الأخيرة متحيزة نحو توليد الأسئلة ذات التداخل المعجمي العالي، والتي يمكن أن تضخيم تحيز DataSet. علاوة على ذلك، يكشف تحليلنا أن تكبير البيانات مع نماذج QG هذه تضعف بشكل متكرر الأداء على الأسئلة مع التداخل المعجمي المنخفض، مع تحسين ذلك على الأسئلة ذات التداخل المعجمي العالي. لمعالجة هذه المشكلة، نستخدم نهج مرادف يستند إلى استبدال أسئلة زيادة التداخل المعجمي المنخفض. نوضح أن نهج تكبير البيانات المقترح بسيط ولكنه فعال في التخفيف من مشكلة التدهور مع الأمثلة الاصطناعية 70K فقط.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الهدف الشامل من معالجة اللغة الطبيعية هو تمكين الآلات من التواصل بسلاسة مع البشر.ومع ذلك، يمكن أن تكون اللغة الطبيعية غامضة أو غير واضحة.في حالات عدم اليقين، يشارك البشر في عملية تفاعلية تعرف باسم الإصلاح: طرح الأسئلة والسعي للحصول على توضيح حتى يتم حل حالة عدم اليقين.نقترح إطارا لبناء نموذج لسؤال أسئلة بصريا قادرة على إنتاج أسئلة توضيحات القطبية (نعم لا) لحل سوء الفهم في الحوار.يستخدم نموذجنا هدف معلومات متوقعة اكتبا لصالح أسئلة مفيدة من Captioner صورة خارج الرف دون الحاجة إلى أي بيانات للإجابة على الأسئلة الخاضعة للإشراف.نوضح قدرة النموذج لدينا على طرح الأسئلة التي تحسن النجاح التواصل في لعبة 20 أسئلة موجهة نحو الأهداف مع الإجابات الاصطناعية والإنسانية.
ركزت أبحاث NLP باللغة العبرية إلى حد كبير على التورفولوجيا وبناء جملة، حيث تتوفر مجموعات البيانات المشروحة الغنية بروح التبعيات العالمية.ومع ذلك، تعد مجموعات البيانات الدلالية في العرض القصير، مما يعوق السلف الحاسم في تطوير تكنولوجيا NLP باللغة العبر ية.في هذا العمل، نقدم البسجة، والسؤال الأول يجيب على DataSet في العبرية الحديثة.تتبع DataSet التنسيق والتعبئة المنهجية من المنهجية من التدقيق، وتحتوي على ما يقرب من 3000 من الأمثلة المشروحة، مماثلة لمجموعات بيانات الإجابة على الأسئلة الأخرى بلغات الموارد المنخفضة.نحن نقدم نتائج خط الأساس الأولى باستخدام نماذج مصممة على طراز برت صدر مؤخرا للعبرية، مما يدل على أن هناك مجالا مهما للتحسين في هذه المهمة.
على الرغم من إظهار قيم واعدة للتطبيقات المصب، فإن توليد السؤال والإجابة معا يتم استكشافها. في هذه الورقة، نقدم مهمة جديدة تستهدف توليد زوج الإجابة على الأسئلة من الصور المرئية. لا يتطلب عدم توليد أزواج حول الإجابات المتنوعة فقط ولكن أيضا الحفاظ على ا لاتساق منهم. نحن ندرس نماذج جيل مختلفة لهذه المهمة واقتراح ثلاث نماذج: نموذج خط الأنابيب، النموذج المشترك، النموذج المتسلسل. نحن ندمج الاستدلال الاختلافي في هذه النماذج لتحقيق التنوع والاتساق. ونحن نقترح أيضا تقدير تمثيل المنطقة ومحاذاة الاهتمام لتحسين الاتساق أكثر. ونحن أخيرا وضع مقيم كقيط كمي للاتساق. نحن نقوم بالتحقق من نهجنا على معيارين، VQA2.0 و Visual-7W، من خلال تقييم التنوع والاتساق يدويا يدويا. تظهر النتائج التجريبية فعالية نماذجنا: يمكن أن تولد أزواج متنوعة أو متسقة. علاوة على ذلك، يمكن استخدام هذه المهمة لتحسين جيل السؤال المرئي والإجابة على السؤال المرئي.
نماذج الإجابة على الأسئلة (QA) تستخدم أنظمة المسترد والقارئ للإجابة على الأسئلة.يمكن الاعتماد على البيانات التدريبية من قبل أنظمة ضمان الجودة أو تعكس عدم المساواة من خلال ردودهم.يتم تدريب العديد من نماذج QA، مثل تلك الخاصة ب DataSet Squad، على مجموعة فرعية من مقالات ويكيبيديا التي تشفص لتحيزاتها الخاصة وإعادة إنتاج عدم المساواة في العالم الحقيقي.فهم كيفية تأثير البيانات التدريبية على التحيز في أنظمة ضمان الجودة يمكن أن تبلغ الأساليب لتخفيف عدم المساواة.نقوم بتطوير مجموعتين من الأسئلة لأسئلة النطاق المغلقة والفتوة على التوالي، والتي تستخدم أسئلة غامضة لتحقيق نماذج QA للتحيز.نطعم ثلاثة أنظمة ضمان الجودة في التعلم العميق مع مجموعات الأسئلة الخاصة بنا وتقييم الردود على التحيز عبر المقاييس.باستخدام مقاييسنا، نجد أن نماذج QA المجال المفتوحة تضخيم التحيزات أكثر من نظيرهم المغلقة من النطاق واقتراح أن يتحيزات في سطح المسترد بسهولة أكبر بسبب حرية الاختيار أكبر.
أظهرت الأعمال التجريدية الأخيرة أن نماذج اللغة (LM) تلتقط أنواعا مختلفة من المعرفة فيما يتعلق بالحقائق أو الحس السليم. ومع ذلك، نظرا لأن أي نموذج مثالي، إلا أنهم لا يزالون يفشلون في تقديم إجابات مناسبة في العديد من الحالات. في هذه الورقة، نطرح السؤال ، كيف يمكننا أن نعرف متى تعرف نماذج اللغة، بثقة، الإجابة على استعلام معين؟ "نحن ندرس هذا السؤال من وجهة نظر المعايرة، وخاصية الاحتمالات المتوقعة للنموذج الاحتمالية في الواقع يجري ارتباطا جيدا مع احتمالات صحة. نحن ندرس ثلاث نماذج تولئة قوية --- T5، بارت، و GPT-2 --- ودراسة ما إذا كانت احتمالاتهم على مهام ضمان الجودة معا معايرة بشكل جيد، والعثور على الجواب لا أحد غير مؤكد نسبيا. ثم نقوم بعد ذلك بفحص الأساليب لمعايرة هذه النماذج لجعل ثقتهم عشرات ترتبط بتحسن مع احتمال صحة الصواب من خلال التعديل الدقيق أو التعديل أو تعديل المخرجات أو المدخلات المتوقعة. تجارب مجموعة متنوعة من مجموعات البيانات توضح فعالية أساليبنا. كما نقوم بإجراء تحليل لدراسة نقاط القوة والقيود المتمثلة في هذه الأساليب، وإلقاء الضوء على المزيد من التحسينات التي قد يتم إجراؤها في أساليب معايرة LMS. لقد أصدرنا التعليمات البرمجية في https://github.com/jzbjyb/lm-calibration.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا