المنطقية هي القدرة البشرية المثالية التي كانت تحديا أساسيا للذكاء الاصطناعي منذ إنشائها. النتائج المثيرة للإعجاب في مهام معالجة اللغة الطبيعية، بما في ذلك في مجال المنطقي، قد تحققت باستمرار مع نماذج اللغة العصبية المحولات، حتى مطابقة أو تجاوز الأداء البشري في بعض المعايير. في الآونة الأخيرة، تم استدعاء بعض هذه التقدم سؤالا: لذلك ما يسمى بتحف البيانات في البيانات التدريبية واضحة مثل الارتباطات الزائفة والاختصارات الضحلة التي تستفيد في بعض النتائج هذه النتائج المتميزة. في هذه الورقة نسعى إلى مزيد من متابعة هذا التحليل في عالم مهام معالجة اللغة ذات الصلة بالعموم. نحن نقوم بدراسة عن مختلف المعايير البارزة التي تنطوي على التفكير في المنطقية، على طول عدد من تجارب الإجهاد الرئيسية، وبالتالي تسعى للحصول على نظرة ثاقبة حول ما إذا كانت النماذج تتعلم التعميمات القابلة للتحويل جوهرية للمشكلة الموجودة على المحك أو الاستفادة من الاختصارات العرضية في البيانات العناصر. تشير النتائج التي تم الحصول عليها إلى أن معظم مجموعات البيانات جربت إشكالية، مع اللجوء من النماذج إلى ميزات غير قوية ويبدو أن لا تتعلم وتعميم تجاه المهام الشاملة التي تهدف إلى نقلها أو تكتسبها مجموعات البيانات.
Commonsense is a quintessential human capacity that has been a core challenge to Artificial Intelligence since its inception. Impressive results in Natural Language Processing tasks, including in commonsense reasoning, have consistently been achieved with Transformer neural language models, even matching or surpassing human performance in some benchmarks. Recently, some of these advances have been called into question: so called data artifacts in the training data have been made evident as spurious correlations and shallow shortcuts that in some cases are leveraging these outstanding results. In this paper we seek to further pursue this analysis into the realm of commonsense related language processing tasks. We undertake a study on different prominent benchmarks that involve commonsense reasoning, along a number of key stress experiments, thus seeking to gain insight on whether the models are learning transferable generalizations intrinsic to the problem at stake or just taking advantage of incidental shortcuts in the data items. The results obtained indicate that most datasets experimented with are problematic, with models resorting to non-robust features and appearing not to be learning and generalizing towards the overall tasks intended to be conveyed or exemplified by the datasets.
References used
https://aclanthology.org/
Current commonsense reasoning research focuses on developing models that use commonsense knowledge to answer multiple-choice questions. However, systems designed to answer multiple-choice questions may not be useful in applications that do not provid
Pre-trained language models have led to substantial gains over a broad range of natural language processing (NLP) tasks, but have been shown to have limitations for natural language generation tasks with high-quality requirements on the output, such
Temporal commonsense reasoning is a challenging task as it requires temporal knowledge usually not explicit in text. In this work, we propose an ensemble model for temporal commonsense reasoning. Our model relies on pre-trained contextual representat
Commonsense inference to understand and explain human language is a fundamental research problem in natural language processing. Explaining human conversations poses a great challenge as it requires contextual understanding, planning, inference, and
Recent methods based on pre-trained language models have shown strong supervised performance on commonsense reasoning. However, they rely on expensive data annotation and time-consuming training. Thus, we focus on unsupervised commonsense reasoning.