لبناء أسئلة قوية لإجابة أنظمة الرد، نحتاج إلى القدرة على التحقق مما إذا كانت الإجابات على الأسئلة صحيحة حقا، وليس فقط جيدة بما فيه الكفاية "في سياق مجموعات بيانات QA غير الكاملة. نستكشف استخدام الاستدلال اللغوي الطبيعي (NLI) كوسيلة لتحقيق هذا الهدف، كما يتطلب NLI بطبيعته الفرضية (سياق المستند) لاحتواء جميع المعلومات اللازمة لدعم الفرضية (الإجابة المقترحة على السؤال). نستفيد النماذج الكبيرة المدربة مسبقا ومجموعات البيانات السابقة الأخيرة لبناء وحدات تحويل أسئلة قوية ووحدات فك التشفير، والتي يمكنها إعادة صياغة حالات ضمان الجودة كأزواج فرضية فرضية ذات موثوقية عالية جدا. ثم، من خلال الجمع بين مجموعات بيانات NLI القياسية مع أمثلة NLI تلقائيا من بيانات تدريب ضمان الجودة، يمكننا تدريب نماذج NLI لتقييم الإجابات المقترحة بنماذج QA. نظهر أن نهجنا يحسن تقدير ثقة نموذج ضمان الجودة عبر المجالات المختلفة، يتم تقييمها في إعداد ضمان الجودة الانتقائي. يظهر التحليل اليدوي الدقيق حول تنبؤات نموذج NLI الخاص بنا أنه يمكنه تحديد الحالات التي ينتج فيها نموذج ضمان الجودة الإجابة الصحيحة للسبب الخطأ، أي، عندما لا تستطيع جملة الإجابة معالجة جميع جوانب السؤال.