المنطقية هي القدرة البشرية المثالية التي كانت تحديا أساسيا للذكاء الاصطناعي منذ إنشائها. النتائج المثيرة للإعجاب في مهام معالجة اللغة الطبيعية، بما في ذلك في مجال المنطقي، قد تحققت باستمرار مع نماذج اللغة العصبية المحولات، حتى مطابقة أو تجاوز الأداء البشري في بعض المعايير. في الآونة الأخيرة، تم استدعاء بعض هذه التقدم سؤالا: لذلك ما يسمى بتحف البيانات في البيانات التدريبية واضحة مثل الارتباطات الزائفة والاختصارات الضحلة التي تستفيد في بعض النتائج هذه النتائج المتميزة. في هذه الورقة نسعى إلى مزيد من متابعة هذا التحليل في عالم مهام معالجة اللغة ذات الصلة بالعموم. نحن نقوم بدراسة عن مختلف المعايير البارزة التي تنطوي على التفكير في المنطقية، على طول عدد من تجارب الإجهاد الرئيسية، وبالتالي تسعى للحصول على نظرة ثاقبة حول ما إذا كانت النماذج تتعلم التعميمات القابلة للتحويل جوهرية للمشكلة الموجودة على المحك أو الاستفادة من الاختصارات العرضية في البيانات العناصر. تشير النتائج التي تم الحصول عليها إلى أن معظم مجموعات البيانات جربت إشكالية، مع اللجوء من النماذج إلى ميزات غير قوية ويبدو أن لا تتعلم وتعميم تجاه المهام الشاملة التي تهدف إلى نقلها أو تكتسبها مجموعات البيانات.
Commonsense is a quintessential human capacity that has been a core challenge to Artificial Intelligence since its inception. Impressive results in Natural Language Processing tasks, including in commonsense reasoning, have consistently been achieved with Transformer neural language models, even matching or surpassing human performance in some benchmarks. Recently, some of these advances have been called into question: so called data artifacts in the training data have been made evident as spurious correlations and shallow shortcuts that in some cases are leveraging these outstanding results. In this paper we seek to further pursue this analysis into the realm of commonsense related language processing tasks. We undertake a study on different prominent benchmarks that involve commonsense reasoning, along a number of key stress experiments, thus seeking to gain insight on whether the models are learning transferable generalizations intrinsic to the problem at stake or just taking advantage of incidental shortcuts in the data items. The results obtained indicate that most datasets experimented with are problematic, with models resorting to non-robust features and appearing not to be learning and generalizing towards the overall tasks intended to be conveyed or exemplified by the datasets.
المراجع المستخدمة
https://aclanthology.org/
يركز البحث في مجال المنطق الحالي على تطوير النماذج التي تستخدم معرفة المنطقية للإجابة على أسئلة متعددة الخيارات. ومع ذلك، قد لا تكون النظم المصممة للإجابة على أسئلة متعددة الخيارات مفيدة في التطبيقات التي لا توفر قائمة صغيرة من إجابات المرشحين للاختي
أدت نماذج اللغة المدربة مسبقا إلى مكاسب كبيرة على مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP)، ولكنها تبين أن قيود لمهام توليد اللغة الطبيعية مع متطلبات عالية الجودة على الإخراج، مثل جيل العمولة والإعلان توليد الكلمات الرئيسية. في هذا العمل، نقد
منطق العموم الزمني هي مهمة صعبة لأنها تتطلب المعرفة الزمنية عادة غير صريحة في النص.في هذا العمل، نقترح نموذج فرقة لسبب المنظمات الزمنية.يعتمد نموذجنا على تمثيلات سياقية مدربة مسبقا من نماذج اللغة القائمة على المحولات (IE، Bert)، وعلى مجموعة متنوعة من
إن استنتاج المنطقي لفهم وشرح اللغة البشرية هي مشكلة بحثية أساسية في معالجة اللغة الطبيعية. يطرح المشرف على المحادثات الإنسانية تحديا كبيرا لأنه يتطلب التفاهم السياقي والتخطيط والاستدلال والعديد من جوانب المنطق بما في ذلك التفكير السببية والزمان والعم
أظهرت الأساليب الحديثة بناء على نماذج اللغة المدربين مسبقا أداء مشغل قوي على المنطق المنطقي.ومع ذلك، فإنها تعتمد على شروح بيانات باهظة الثمن والتدريب المستهلكة للوقت.وهكذا، نحن نركز على التفكير المنطقي غير المنشأ.نظهر فعالية استخدام إطار عمل مشترك، ا