دعا النجاح الأخير لنماذج اللغة العصبية (NLMS) على تحدي مخطط Winograd إلى مزيد من التحقيق في قدرة المنطق المنطقي لهذه النماذج. تعتمد مجموعات البيانات التشخيصية السابقة على مصادر الحشد التي تفشل في توفير أمر مناسب متماسك لحل مشاكل WSC. لتحسين تقييم NLMS بشكل أفضل، نقترح إطارا يستند إلى المنطق يركز على معرفة المناخية عالية الجودة. على وجه التحديد، نقوم بتحديد وجمع صيغ المعرفة الرسمية التي تم التحقق منها بواسطة Theorem Brovers وترجمة هذه الصيغ إلى جمل لغة طبيعية. بناء على جمل المعرفة الحقيقية هذه، يتم إنشاء تلك الخوذة الخاطئة. نقترح مجموعة بيانات جديدة تسمى Winologic مع هذه الجمل. نظرا لمشكلة Winologic، تحتاج NLMS إلى تحديد ما إذا كانت جمل المعرفة المعقولة يمكن أن تحل مشاكل WSC المقابلة بشكل صحيح في إعداد طلقة صفرية. نطلب أيضا عن النذوي البشري للتحقق من صحة نولولوجية لضمان أن يكون مقبول من الإنسان. تشير التجارب إلى أن NLMS ما زالت تكافح لفهم معرفة المنظمات كإنسان، مما يشير إلى المبالغة في تقدير قدرتهم في التفكير.
The recent success of neural language models (NLMs) on the Winograd Schema Challenge has called for further investigation of the commonsense reasoning ability of these models. Previous diagnostic datasets rely on crowd-sourcing which fails to provide coherent commonsense crucial for solving WSC problems. To better evaluate NLMs, we propose a logic-based framework that focuses on high-quality commonsense knowledge. Specifically, we identify and collect formal knowledge formulas verified by theorem provers and translate such formulas into natural language sentences. Based on these true knowledge sentences, adversarial false ones are generated. We propose a new dataset named WinoLogic with these sentences. Given a problem in WinoLogic, NLMs need to decide whether the plausible knowledge sentences could correctly solve the corresponding WSC problems in a zero-shot setting. We also ask human annotators to validate WinoLogic to ensure it is human-agreeable. Experiments show that NLMs still struggle to comprehend commonsense knowledge as humans do, indicating that their reasoning ability could have been overestimated.
المراجع المستخدمة
https://aclanthology.org/
البحث عن الويب هو وسيلة أساسية للبشر للحصول على معلومات، لكنها لا تزال تحديا كبيرا للآلات لفهم محتويات صفحات الويب. في هذه الورقة، نقدم مهمة فهم القراءة الهيكلية المستندة إلى الويب. نظرا لصفحة ويب وسؤال حولها، فإن المهمة هي العثور على إجابة من صفحة ا
في الدراسات السريرية، تستخدم Chatbots MiMicking تفاعلات الطبيب المريض في جمع معلومات حول الحالة الصحية للمريض.في وقت لاحق، يجب معالجتها هذه المعلومات وهيكلية للطبيب.طريقة واحدة لتنظيمها هي تلقائيا ملء الاستبيانات من محادثة الإنسان بوت.من شأنه أن يساع
يمكن للكشف عن الموقف على وسائل التواصل الاجتماعي المساعدة في تحديد وفهم الأخبار أو التعليق المائل في الحياة اليومية.في هذا العمل، نقترح نموذجا جديدا للكشف عن موقف صفرية على Twitter يستخدم التعلم الخصم للتعميم عبر الموضوعات.ينص نموذجنا على الأداء الحد
نقدم متعدد اليوراء، مجموعة بيانات جديدة متعددة اللغات لتصنيف الموضوع للوثائق القانونية. تضم DataSet قوانين الاتحاد الأوروبي 65 ألف (EU)، والتي ترجمت رسميا في 23 لغة، مشروحا بالملصقات المتعددة من تصنيف Eurovoc. نسلط الضوء على تأثير المنفأة الزمنية الا
نحن نبحث كيف يمكن تعديل محولات مستوى الجملة في وضع علامات تسلسل فعالة على مستوى الرمز المميز دون أي إشراف مباشر.لا تؤدي الأساليب الموجودة إلى وضع العلامات على التسلسل الصفرية جيدا عند تطبيقها على الهندسة القائمة على المحولات.نظرا لأن المحولات تحتوي ع