دعا النجاح الأخير لنماذج اللغة العصبية (NLMS) على تحدي مخطط Winograd إلى مزيد من التحقيق في قدرة المنطق المنطقي لهذه النماذج. تعتمد مجموعات البيانات التشخيصية السابقة على مصادر الحشد التي تفشل في توفير أمر مناسب متماسك لحل مشاكل WSC. لتحسين تقييم NLMS بشكل أفضل، نقترح إطارا يستند إلى المنطق يركز على معرفة المناخية عالية الجودة. على وجه التحديد، نقوم بتحديد وجمع صيغ المعرفة الرسمية التي تم التحقق منها بواسطة Theorem Brovers وترجمة هذه الصيغ إلى جمل لغة طبيعية. بناء على جمل المعرفة الحقيقية هذه، يتم إنشاء تلك الخوذة الخاطئة. نقترح مجموعة بيانات جديدة تسمى Winologic مع هذه الجمل. نظرا لمشكلة Winologic، تحتاج NLMS إلى تحديد ما إذا كانت جمل المعرفة المعقولة يمكن أن تحل مشاكل WSC المقابلة بشكل صحيح في إعداد طلقة صفرية. نطلب أيضا عن النذوي البشري للتحقق من صحة نولولوجية لضمان أن يكون مقبول من الإنسان. تشير التجارب إلى أن NLMS ما زالت تكافح لفهم معرفة المنظمات كإنسان، مما يشير إلى المبالغة في تقدير قدرتهم في التفكير.
The recent success of neural language models (NLMs) on the Winograd Schema Challenge has called for further investigation of the commonsense reasoning ability of these models. Previous diagnostic datasets rely on crowd-sourcing which fails to provide coherent commonsense crucial for solving WSC problems. To better evaluate NLMs, we propose a logic-based framework that focuses on high-quality commonsense knowledge. Specifically, we identify and collect formal knowledge formulas verified by theorem provers and translate such formulas into natural language sentences. Based on these true knowledge sentences, adversarial false ones are generated. We propose a new dataset named WinoLogic with these sentences. Given a problem in WinoLogic, NLMs need to decide whether the plausible knowledge sentences could correctly solve the corresponding WSC problems in a zero-shot setting. We also ask human annotators to validate WinoLogic to ensure it is human-agreeable. Experiments show that NLMs still struggle to comprehend commonsense knowledge as humans do, indicating that their reasoning ability could have been overestimated.
References used
https://aclanthology.org/
Web search is an essential way for humans to obtain information, but it's still a great challenge for machines to understand the contents of web pages. In this paper, we introduce the task of web-based structural reading comprehension. Given a web pa
In clinical studies, chatbots mimicking doctor-patient interactions are used for collecting information about the patient's health state. Later, this information needs to be processed and structured for the doctor. One way to organize it is by automa
Stance detection on social media can help to identify and understand slanted news or commentary in everyday life. In this work, we propose a new model for zero-shot stance detection on Twitter that uses adversarial learning to generalize across topic
We introduce MULTI-EURLEX, a new multilingual dataset for topic classification of legal documents. The dataset comprises 65k European Union (EU) laws, officially translated in 23 languages, annotated with multiple labels from the EUROVOC taxonomy. We
We investigate how sentence-level transformers can be modified into effective sequence labelers at the token level without any direct supervision. Existing approaches to zero-shot sequence labeling do not perform well when applied on transformer-base