هل تمثل تفسيرات اللغة الطبيعية حجج منطقية صالحة؟التحقق من الاستنزاف في معايير الذهب NLI القابلة للتفسير


الملخص بالعربية

خط البحث الناشئ في NLP التفسير هو إنشاء مجموعات البيانات المخصبة بالتفسيرات والمنظمات المشروح البشرية، وتستخدم لبناء وتقييم النماذج مع الاستدلال والخطوة الحكيمة وإمكانيات توليد التفسير. في حين أن التفسيرات المشروح البشرية تستخدم كحقيقة أرضية للاستدلال، فهناك نقص في التقييم المنهجي للاتساق والضيق. في محاولة لتقديم تقييم جودة حرج لمعايير الذهب التفسير (XGSS) ل NLI، نقترح المنهجية التوضيحية المنهجية، المسمى التحقق من التفسير التسليم (EEV)، لتحديد الصلاحية المنطقية للتفسيرات المشروح البشرية. يكشف تطبيق EEEV على ثلاث مجموعات بيانات سائدة عن الاستنتاج المثير للدهشة بأن غالبية التفسيرات، أثناء ظهورها متماسكة على السطح، تمثل حجج غير صالحة منطقي، تتراوح من عدم اكتمالها لتحتوي على أخطاء منطقية يمكن تحديدها بوضوح. تؤكد هذا الاستنتاج أن الخصائص الاستنتاجية للتفسيرات لا تزال ضعيفة بشكل سيء وفهم، وأن العمل الإضافي على هذا البحث من الضروري لتحسين طريقة بناء معايير الذهب التفسير.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث