ترغب بنشر مسار تعليمي؟ اضغط هنا

هل تمثل تفسيرات اللغة الطبيعية حجج منطقية صالحة؟التحقق من الاستنزاف في معايير الذهب NLI القابلة للتفسير

Do Natural Language Explanations Represent Valid Logical Arguments? Verifying Entailment in Explainable NLI Gold Standards

207   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

خط البحث الناشئ في NLP التفسير هو إنشاء مجموعات البيانات المخصبة بالتفسيرات والمنظمات المشروح البشرية، وتستخدم لبناء وتقييم النماذج مع الاستدلال والخطوة الحكيمة وإمكانيات توليد التفسير. في حين أن التفسيرات المشروح البشرية تستخدم كحقيقة أرضية للاستدلال، فهناك نقص في التقييم المنهجي للاتساق والضيق. في محاولة لتقديم تقييم جودة حرج لمعايير الذهب التفسير (XGSS) ل NLI، نقترح المنهجية التوضيحية المنهجية، المسمى التحقق من التفسير التسليم (EEV)، لتحديد الصلاحية المنطقية للتفسيرات المشروح البشرية. يكشف تطبيق EEEV على ثلاث مجموعات بيانات سائدة عن الاستنتاج المثير للدهشة بأن غالبية التفسيرات، أثناء ظهورها متماسكة على السطح، تمثل حجج غير صالحة منطقي، تتراوح من عدم اكتمالها لتحتوي على أخطاء منطقية يمكن تحديدها بوضوح. تؤكد هذا الاستنتاج أن الخصائص الاستنتاجية للتفسيرات لا تزال ضعيفة بشكل سيء وفهم، وأن العمل الإضافي على هذا البحث من الضروري لتحسين طريقة بناء معايير الذهب التفسير.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

على الرغم من أن النماذج العصبية قد أظهرت أداء قويا في مجموعات البيانات مثل SNLI، إلا أنها تفتقر إلى القدرة على التعميم خارج التوزيع (OOD).في هذا العمل، نقوم بصياغة عدد قليل من إعدادات التعلم ودراسة آثار تفسيرات اللغة الطبيعية على تعميم OOD.نحن نستفيد من القوالب في DataSet Hans وبناء تفسيرات لغة طبيعية TEMPLated لكل قالب.على الرغم من أن التفسيرات الناتجة تظهر درجات بلو تنافسية ضد تفسيرات الحقيقة الأرضية، إلا أنها تفشل في تحسين أداء التنبؤ.نوضح مزيد من التفسيرات التي تم إنشاؤها في كثير من الأحيان معلومات الهلوسة والأيس عن العناصر الرئيسية التي تشير إلى الملصق.
لبناء أسئلة قوية لإجابة أنظمة الرد، نحتاج إلى القدرة على التحقق مما إذا كانت الإجابات على الأسئلة صحيحة حقا، وليس فقط جيدة بما فيه الكفاية "في سياق مجموعات بيانات QA غير الكاملة. نستكشف استخدام الاستدلال اللغوي الطبيعي (NLI) كوسيلة لتحقيق هذا الهدف، كما يتطلب NLI بطبيعته الفرضية (سياق المستند) لاحتواء جميع المعلومات اللازمة لدعم الفرضية (الإجابة المقترحة على السؤال). نستفيد النماذج الكبيرة المدربة مسبقا ومجموعات البيانات السابقة الأخيرة لبناء وحدات تحويل أسئلة قوية ووحدات فك التشفير، والتي يمكنها إعادة صياغة حالات ضمان الجودة كأزواج فرضية فرضية ذات موثوقية عالية جدا. ثم، من خلال الجمع بين مجموعات بيانات NLI القياسية مع أمثلة NLI تلقائيا من بيانات تدريب ضمان الجودة، يمكننا تدريب نماذج NLI لتقييم الإجابات المقترحة بنماذج QA. نظهر أن نهجنا يحسن تقدير ثقة نموذج ضمان الجودة عبر المجالات المختلفة، يتم تقييمها في إعداد ضمان الجودة الانتقائي. يظهر التحليل اليدوي الدقيق حول تنبؤات نموذج NLI الخاص بنا أنه يمكنه تحديد الحالات التي ينتج فيها نموذج ضمان الجودة الإجابة الصحيحة للسبب الخطأ، أي، عندما لا تستطيع جملة الإجابة معالجة جميع جوانب السؤال.
تمنح نماذج اللغة العصبية المدربة مسبقا أداء عال في مهام الاستدلال اللغوي (NLI).ولكن ما إذا كانوا يفهمون فعلا معنى التسلسلات المصنعة لا يزال غير واضح.نقترح جناح اختبار التشخيص الجديد الذي يسمح بتقييم ما إذا كانت مجموعة البيانات تشكل اختبارا جيدا لتقيي م النماذج معنى فهم القدرات.نحن على وجه التحديد تطبيق تحويلات الفساد التي تسيطر عليها إلى المعايير المستخدمة على نطاق واسع (MNLI و Anli)، والتي تنطوي على إزالة فئات الكلمات بأكملها وغالبا ما تؤدي إلى أزواج الجملة غير الحسية.إذا ظلت دقة النموذجية على البيانات التالفة مرتفعة، فمن المحتمل أن تحتوي مجموعة البيانات على تحيزات إحصائية ومصنوعات تصريفات توقع التنبؤ.عكسيا، يشير انخفاض كبير في الدقة النموذجية إلى أن مجموعة البيانات الأصلية توفر تحديا صحيحا لقدرات منطق النماذج.وبالتالي، يمكن أن تكون عناصر التحكم المقترحة لدينا بمثابة اختبار تحطم لتطوير بيانات عالية الجودة لمهام NLI.
يعد معالجة عدم التطابق بين الأوصاف اللغوية الطبيعية واستعلامات SQL المقابلة تحديا رئيسيا للترجمة النصية إلى SQL. لسد هذه الفجوة، نقترح تمثيل SQL الوسيط (IR) يسمى SQL الطبيعية (Natsql). على وجه التحديد، يحافظ NATSQL على الوظائف الأساسية ل SQL، في حين أنه يبسط الاستفسارات على النحو التالي: (1) الاستغناء عن المشغلين والكلمات الرئيسية مثل المجموعة من قبل المجموعة، بعد، من أجل الانضمام، والتي عادة ما تكون من الصعب العثور على نظرائهم في أوصاف النص؛ (2) إزالة الحاجة إلى السدود المتداخلة وتعيين المشغلين؛ (3) جعل المخطط يربط أسهل عن طريق تقليل العدد المطلوب من عناصر المخطط. على العنكبوت، وهو معيار نصي To-SQL الصعب يحتوي على استفسارات SQL معقدة ومتداخلة، نوضح أن NATSQL تفوق irs غيرها من مصلحة الضرائب الأخرى، وتحسين أداء العديد من نماذج Sota السابقة. علاوة على ذلك، بالنسبة للنماذج الحالية التي لا تدعم جيل SQL القابل للتنفيذ، يمكنك استخدامها NATSQL بسهولة من إنشاء استعلامات SQL القابلة للتنفيذ، وتحقق دقة تنفيذ الحالة الجديدة من بين الفن.
نسأل الموضوعات سواء كانوا ينظرون إلى وجود مجموعة من النصوص، وبعضها مكتوب بالفعل، في حين يتم إنشاء آخرين تلقائيا.نحن نستخدم هذه البيانات لضبط نموذج GPT-2 لدفعه لتوليد المزيد من النصوص التي يشبه الإنسان، ومراقبة أن هذا النموذج الذي تم ضبطه بشكل جيد ينت ج نصا يشوه بالفعل أكثر من النموذج الأصلي.سيحري، نظهر أن استراتيجية التقييم التلقائي لدينا ترتبط جيدا بأحكام بشرية.كما ندير تحليل لغوي تكشف عن خصائص اللغة التي تتسم بها الإنسان.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا