نحن نبحث عن مشكلة الاختلال العظيمة في أبحاث معالجة اللغات الطبيعية، وهذا يعني ببساطة أن تعريف المشكلة لا يتماشى مع الطريقة المقترحة والتقييم البشري لا يتماشى مع التعريف ولا الطريقة.ندرس هذه المشكلة الاختلافة من خلال مسح 10 ورقات أخذ عينات عشوائيا منشورة في ACL 2020 التي ينتج عنها التقرير البشري.تظهر نتائجنا أن ورقة واحدة فقط كانت متوافقة تماما من حيث تعريف المشكلة والطريقة والتقييم.قدمت ورقتين فقط تقييم بشري يتماشى مع ما تم تصميمه في الطريقة.وتسليط الضوء على هذه النتائج أن مشكلة الاختلافة العظيمة هي رئيسة كبيرة وتؤثر على صحة وتطوير النتائج التي حصل عليها تقييم بشري.
We outline the Great Misalignment Problem in natural language processing research, this means simply that the problem definition is not in line with the method proposed and the human evaluation is not in line with the definition nor the method. We study this misalignment problem by surveying 10 randomly sampled papers published in ACL 2020 that report results with human evaluation. Our results show that only one paper was fully in line in terms of problem definition, method and evaluation. Only two papers presented a human evaluation that was in line with what was modeled in the method. These results highlight that the Great Misalignment Problem is a major one and it affects the validity and reproducibility of results obtained by a human evaluation.
المراجع المستخدمة
https://aclanthology.org/
في مهام NLP ذات المستوى البشري، مثل التنبؤ بالصحة العقلية أو الشخصية أو التركيبة السكانية، غالبا ما يكون عدد الملاحظات أصغر من أحجام الحالة الخفية 768+ في كل طبقة داخل نماذج اللغة الحديثة القائمة على المحولات، مما يحد من القدرة على النفوذ بشكل فعال م
يجعل معالجة اللغة الطبيعية الحديثة (NLP) استخداما مكثفا لأساليب التعلم العميق بسبب الدقة التي تقدمها لمجموعة متنوعة من التطبيقات.نظرا للتأثير البيئي الكبير للبيئة للتعلم العميق، تم اقتراح تحليل التكلفة والفائدة بما في ذلك بصمة الكربون وكذلك تدابير ال
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق
على الرغم من الأداء الحديثة، يمكن أن تكون أنظمة NLP هشة في مواقف العالم الحقيقي. غالبا ما يكون هذا بسبب عدم كفاية فهم قدرات وقيود النماذج والاعتماد الشديد على معايير التقييم القياسية. البحث في التقييم غير القياسي للتخفيف من هذا التجشير يكتسب اهتماما
التركيز HCI و NLP تقليديا على طرق التقييم المختلفة.بينما ينطوي HCI على عدد صغير من الأشخاص بشكل مباشر وعميق، يعتمد NLP تقليديا على التقييمات القياسية القياسية التي تنطوي على عدد أكبر من الأشخاص بشكل غير مباشر.نقدم خمس مقترحات منهجية عند تقاطع HCI و N