خط البحث الناشئ في NLP التفسير هو إنشاء مجموعات البيانات المخصبة بالتفسيرات والمنظمات المشروح البشرية، وتستخدم لبناء وتقييم النماذج مع الاستدلال والخطوة الحكيمة وإمكانيات توليد التفسير. في حين أن التفسيرات المشروح البشرية تستخدم كحقيقة أرضية للاستدلال، فهناك نقص في التقييم المنهجي للاتساق والضيق. في محاولة لتقديم تقييم جودة حرج لمعايير الذهب التفسير (XGSS) ل NLI، نقترح المنهجية التوضيحية المنهجية، المسمى التحقق من التفسير التسليم (EEV)، لتحديد الصلاحية المنطقية للتفسيرات المشروح البشرية. يكشف تطبيق EEEV على ثلاث مجموعات بيانات سائدة عن الاستنتاج المثير للدهشة بأن غالبية التفسيرات، أثناء ظهورها متماسكة على السطح، تمثل حجج غير صالحة منطقي، تتراوح من عدم اكتمالها لتحتوي على أخطاء منطقية يمكن تحديدها بوضوح. تؤكد هذا الاستنتاج أن الخصائص الاستنتاجية للتفسيرات لا تزال ضعيفة بشكل سيء وفهم، وأن العمل الإضافي على هذا البحث من الضروري لتحسين طريقة بناء معايير الذهب التفسير.
An emerging line of research in Explainable NLP is the creation of datasets enriched with human-annotated explanations and rationales, used to build and evaluate models with step-wise inference and explanation generation capabilities. While human-annotated explanations are used as ground-truth for the inference, there is a lack of systematic assessment of their consistency and rigour. In an attempt to provide a critical quality assessment of Explanation Gold Standards (XGSs) for NLI, we propose a systematic annotation methodology, named Explanation Entailment Verification (EEV), to quantify the logical validity of human-annotated explanations. The application of EEV on three mainstream datasets reveals the surprising conclusion that a majority of the explanations, while appearing coherent on the surface, represent logically invalid arguments, ranging from being incomplete to containing clearly identifiable logical errors. This conclusion confirms that the inferential properties of explanations are still poorly formalised and understood, and that additional work on this line of research is necessary to improve the way Explanation Gold Standards are constructed.
المراجع المستخدمة
https://aclanthology.org/
على الرغم من أن النماذج العصبية قد أظهرت أداء قويا في مجموعات البيانات مثل SNLI، إلا أنها تفتقر إلى القدرة على التعميم خارج التوزيع (OOD).في هذا العمل، نقوم بصياغة عدد قليل من إعدادات التعلم ودراسة آثار تفسيرات اللغة الطبيعية على تعميم OOD.نحن نستفيد
لبناء أسئلة قوية لإجابة أنظمة الرد، نحتاج إلى القدرة على التحقق مما إذا كانت الإجابات على الأسئلة صحيحة حقا، وليس فقط جيدة بما فيه الكفاية "في سياق مجموعات بيانات QA غير الكاملة. نستكشف استخدام الاستدلال اللغوي الطبيعي (NLI) كوسيلة لتحقيق هذا الهدف،
تمنح نماذج اللغة العصبية المدربة مسبقا أداء عال في مهام الاستدلال اللغوي (NLI).ولكن ما إذا كانوا يفهمون فعلا معنى التسلسلات المصنعة لا يزال غير واضح.نقترح جناح اختبار التشخيص الجديد الذي يسمح بتقييم ما إذا كانت مجموعة البيانات تشكل اختبارا جيدا لتقيي
يعد معالجة عدم التطابق بين الأوصاف اللغوية الطبيعية واستعلامات SQL المقابلة تحديا رئيسيا للترجمة النصية إلى SQL. لسد هذه الفجوة، نقترح تمثيل SQL الوسيط (IR) يسمى SQL الطبيعية (Natsql). على وجه التحديد، يحافظ NATSQL على الوظائف الأساسية ل SQL، في حين
نسأل الموضوعات سواء كانوا ينظرون إلى وجود مجموعة من النصوص، وبعضها مكتوب بالفعل، في حين يتم إنشاء آخرين تلقائيا.نحن نستخدم هذه البيانات لضبط نموذج GPT-2 لدفعه لتوليد المزيد من النصوص التي يشبه الإنسان، ومراقبة أن هذا النموذج الذي تم ضبطه بشكل جيد ينت