قام الكثير من الأعمال الحديثة في NLP بتوثيق القطع الأثرية لحجم البيانات والتحيز والارتباطات الزائفة بين ميزات الإدخال وتسميات الإخراج. ومع ذلك، وكيفية معرفة الميزات التي تحتوي على زائفة "بدلا من الارتباطات المشروعة عادة ما تكون غير محددة. في هذا العمل، نقول أنه بالنسبة لمهام فهم اللغة المعقدة، فإن جميع الارتباطات البسيطة الميزة زائفة، ونحن نقضي بإضفاء الطابع الرسمي على هذه الفكرة في فئة من المشاكل التي نسميها مشاكل الكفاءة. على سبيل المثال، يجب أن تعطي الكلمة مذهلة '' من تلقاء نفسها معلومات حول تسمية المعنويات مستقلة عن السياق الذي يظهر فيه، مما قد يشمل النفي والاستعارة والسخرية وما إلى ذلك. نحن نظريين تحليلا نظريا صعوبة في إنشاء بيانات لمشاكل الكفاءة عندما يتم أخذ التحيز البشري في الاعتبار، إظهار أن مجموعات البيانات الواقعية ستخلص بشكل متزايد من مشاكل الكفاءة حيث يزيد حجم مجموعة البيانات. يمنحنا هذا التحليل اختبارا إحصائيا بسيطا ل Artifacts DataSet، والذي نستخدمه لإظهار المزيد من التحيزات الدقيقة أكثر من الموصوفة في العمل السابق، بما في ذلك إظهار أن النماذج تتأثر بشكل غير لائق من هذه التحيزات الأقل شاقة. يسمح لنا العلاج النظري لهذه المشكلة أيضا بتحليل الحلول المقترحة، مثل إجراء تعديلات محلية لحالات البيانات، وتقديم توصيات لجمع البيانات المستقبلية وجهود تصميم النماذج التي تستهدف مشاكل الكفاءة.
Much recent work in NLP has documented dataset artifacts, bias, and spurious correlations between input features and output labels. However, how to tell which features have spurious'' instead of legitimate correlations is typically left unspecified. In this work we argue that for complex language understanding tasks, all simple feature correlations are spurious, and we formalize this notion into a class of problems which we call competency problems. For example, the word amazing'' on its own should not give information about a sentiment label independent of the context in which it appears, which could include negation, metaphor, sarcasm, etc. We theoretically analyze the difficulty of creating data for competency problems when human bias is taken into account, showing that realistic datasets will increasingly deviate from competency problems as dataset size increases. This analysis gives us a simple statistical test for dataset artifacts, which we use to show more subtle biases than were described in prior work, including demonstrating that models are inappropriately affected by these less extreme biases. Our theoretical treatment of this problem also allows us to analyze proposed solutions, such as making local edits to dataset instances, and to give recommendations for future data collection and model design efforts that target competency problems.
References used
https://aclanthology.org/
In this tutorial, we present a portion of unique industry experience in efficient natural language data annotation via crowdsourcing shared by both leading researchers and engineers from Yandex. We will make an introduction to data labeling via publi
Sentence embeddings encode information relating to the usage of idioms in a sentence. This paper reports a set of experiments that combine a probing methodology with input masking to analyse where in a sentence this idiomatic information is taken fro
Introduction:The nurse manager role and how it is carried out in healthcare
organizations has been an important topic which had emphasized by many international
organizations and institutions during the past two decades. Thus, this role had impact
Scholarly documents have a great degree of variation, both in terms of content (semantics) and structure (pragmatics). Prior work in scholarly document understanding emphasizes semantics through document summarization and corpus topic modeling but te
Understanding tables is an important and relevant task that involves understanding table structure as well as being able to compare and contrast information within cells. In this paper, we address this challenge by presenting a new dataset and tasks