شهدت مشكلة تصميم حلول NLP لمشاكل كلمة الرياضيات (MWP) نشاط بحثي مستمر ومكاسب ثابتة في دقة الاختبار. نظرا لأن الحلفل الموجودين يحققون أداء عاليا على مجموعات البيانات القياسية للمستوى الابتدائي الذي يحتوي على مشاكل في الكلمات الحسابية المجهولة الأولى، إلا أن هذه المشكلات غالبا ما يتم حلها في كثير من الأحيان "مع الجزء الأكبر من الاهتمام بالبحث إلى MWPS أكثر تعقيدا. في هذه الورقة، قصرنا انتباهنا إلى اللغة الإنجليزية MWPs تدرس في الصفوف الأربعة والأقل. نحن نقدم دليلا قويا على أن وحدات MWP الحالية تعتمد على الاستدلال الضحلة لتحقيق أداء عال في مجموعات البيانات القياسية. تحقيقا لهذه الغاية، نظهر أن حفلات MWP التي لا تملك الوصول إلى السؤال المطلوب في MWP، لا يزال بإمكانك حل جزء كبير من MWPS. وبالمثل، فإن النماذج التي تعالج mwps كحقيبة من الكلمات يمكن أن تحقق أيضا دقة عالية بشكل مدهش. علاوة على ذلك، نقدم مجموعة بيانات تحدي، Svamp، تم إنشاؤها من خلال تطبيق الاختلافات المختارة بعناية على الأمثلة التي تم أخذ عينات منها من مجموعات البيانات الحالية. إن أفضل الدقة التي تحققت بها النماذج الحديثة أقل بكثير على Svamp، وبالتالي إظهار الكثير لا يزال يتعين القيام به حتى لأبسط MWPS.
The problem of designing NLP solvers for math word problems (MWP) has seen sustained research activity and steady gains in the test accuracy. Since existing solvers achieve high performance on the benchmark datasets for elementary level MWPs containing one-unknown arithmetic word problems, such problems are often considered solved'' with the bulk of research attention moving to more complex MWPs. In this paper, we restrict our attention to English MWPs taught in grades four and lower. We provide strong evidence that the existing MWP solvers rely on shallow heuristics to achieve high performance on the benchmark datasets. To this end, we show that MWP solvers that do not have access to the question asked in the MWP can still solve a large fraction of MWPs. Similarly, models that treat MWPs as bag-of-words can also achieve surprisingly high accuracy. Further, we introduce a challenge dataset, SVAMP, created by applying carefully chosen variations over examples sampled from existing datasets. The best accuracy achieved by state-of-the-art models is substantially lower on SVAMP, thus showing that much remains to be done even for the simplest of the MWPs.
References used
https://aclanthology.org/
Current neural math solvers learn to incorporate commonsense or domain knowledge by utilizing pre-specified constants or formulas. However, as these constants and formulas are mainly human-specified, the generalizability of the solvers is limited. In
In this article, we tackle the math word problem, namely, automatically answering a mathematical problem according to its textual description. Although recent methods have demonstrated their promising results, most of these methods are based on templ
While solving math word problems automatically has received considerable attention in the NLP community, few works have addressed probability word problems specifically. In this paper, we employ and analyse various neural models for answering such wo
Recent studies have revealed a security threat to natural language processing (NLP) models, called the Backdoor Attack. Victim models can maintain competitive performance on clean samples while behaving abnormally on samples with a specific trigger w
Research in NLP has mainly focused on factoid questions, with the goal of finding quick and reliable ways of matching a query to an answer. However, human discourse involves more than that: it contains non-canonical questions deployed to achieve spec