ترغب بنشر مسار تعليمي؟ اضغط هنا

مشكلة اختلال كبيرة في التقييم البشري لأساليب NLP

The Great Misalignment Problem in Human Evaluation of NLP Methods

328   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن نبحث عن مشكلة الاختلال العظيمة في أبحاث معالجة اللغات الطبيعية، وهذا يعني ببساطة أن تعريف المشكلة لا يتماشى مع الطريقة المقترحة والتقييم البشري لا يتماشى مع التعريف ولا الطريقة.ندرس هذه المشكلة الاختلافة من خلال مسح 10 ورقات أخذ عينات عشوائيا منشورة في ACL 2020 التي ينتج عنها التقرير البشري.تظهر نتائجنا أن ورقة واحدة فقط كانت متوافقة تماما من حيث تعريف المشكلة والطريقة والتقييم.قدمت ورقتين فقط تقييم بشري يتماشى مع ما تم تصميمه في الطريقة.وتسليط الضوء على هذه النتائج أن مشكلة الاختلافة العظيمة هي رئيسة كبيرة وتؤثر على صحة وتطوير النتائج التي حصل عليها تقييم بشري.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في مهام NLP ذات المستوى البشري، مثل التنبؤ بالصحة العقلية أو الشخصية أو التركيبة السكانية، غالبا ما يكون عدد الملاحظات أصغر من أحجام الحالة الخفية 768+ في كل طبقة داخل نماذج اللغة الحديثة القائمة على المحولات، مما يحد من القدرة على النفوذ بشكل فعال م حولات. هنا، نحن نقدم دراسة منهجية حول دور أساليب خفض البعد (تحليل المكونات الرئيسية وتقنيات العظام أو الترميز التلقائي متعدد الطبقات) بالإضافة إلى أبعاد مضاعفات تضمين وأحجام العينات كدالة للأداء التنبؤي. نجد أولا أن النماذج الكبيرة التي تؤديها بشكل جيد مع كمية محدودة من البيانات تشكل صعوبة كبيرة يمكن التغلب عليها مع نظام الحد من البعد المدرب مسبقا. يحقق روبرتا باستمرار الأداء الأعلى في المهام على المستوى البشري، مع إعطاء PCA فائدة على أساليب الخلل الأخرى في التعامل بشكل أفضل للمستخدمين الذين يكتبون نصوص أطول. أخيرا، نلاحظ أن غالبية المهام تحقق نتائج مماثلة لأفضل أداء مع 1/12 فقط من أبعاد التضمين.
يجعل معالجة اللغة الطبيعية الحديثة (NLP) استخداما مكثفا لأساليب التعلم العميق بسبب الدقة التي تقدمها لمجموعة متنوعة من التطبيقات.نظرا للتأثير البيئي الكبير للبيئة للتعلم العميق، تم اقتراح تحليل التكلفة والفائدة بما في ذلك بصمة الكربون وكذلك تدابير ال دقة لتحسين توثيق استخدام أساليب NLP للبحث أو النشر.في هذه الورقة، نراجع الأدوات المتاحة لقياس استخدام الطاقة وانبعاثات ثاني أكسيد الكربون لأساليب NLP.نحن تصف نطاق التدابير المقدمة ومقارنة استخدام ستة أدوات (تعقب الكربون، تعقب تأثير التجريب، الخوارزميات الخضراء، تأثير ثاني أكسيد الكربون، واستخدام الطاقة والاستزمي) على تجارب التعرف على الكيان المسماة المنجزة على إعدادات حسابية مختلفة (الخادم المحليمقابل مرفق الحوسبة).بناء على هذه النتائج، نقترح توصيات قابلة للتنفيذ لقياس الأثر البيئي بدقة تجارب NLP.
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق نقل النمط، نجد أن بروتوكولات التقييمات البشرية غالبا ما تكون غير محددة وغير موحدة، والتي تعيق استنساخ البحث في هذا المجال والتقدم نحو أساليب تقييم بشرية وتلقائية أفضل.
على الرغم من الأداء الحديثة، يمكن أن تكون أنظمة NLP هشة في مواقف العالم الحقيقي. غالبا ما يكون هذا بسبب عدم كفاية فهم قدرات وقيود النماذج والاعتماد الشديد على معايير التقييم القياسية. البحث في التقييم غير القياسي للتخفيف من هذا التجشير يكتسب اهتماما متزايدا. والجدير بالذكر أن قائمة التحقق من مبدأ الاختبار السلوكي، التي كشفت الشكوب من التنفيذ عن إخفاقات كبيرة في النماذج الحديثة لمهام متعددة. في هذه الورقة، نقدم دراسة حالة لاستخدام قائمة مرجعية في سيناريو عملي. نقوم بإجراء تجارب لتقييم نظام الكشف عن المحتوى الهجومي واستخدام تقنية تكبير البيانات لتحسين النموذج باستخدام الأفكار من قائمة التحقق. وضعنا التحديات وتفتح الأسئلة القائمة على ملاحظاتنا لاستخدام قائمة مرجعية لتقييم الإنسان في الحلقة وتحسين أنظمة NLP. إخلاء المسئولية: تحتوي الورقة على أمثلة على المحتوى مع لغة مسيئة. لا تمثل الأمثلة آراء المؤلفين أو أرباب العمل تجاه أي شخص (ق) أو جماعي أو جماعي أو الممارسة (الممارسة) أو الكيان / الكيانات.
التركيز HCI و NLP تقليديا على طرق التقييم المختلفة.بينما ينطوي HCI على عدد صغير من الأشخاص بشكل مباشر وعميق، يعتمد NLP تقليديا على التقييمات القياسية القياسية التي تنطوي على عدد أكبر من الأشخاص بشكل غير مباشر.نقدم خمس مقترحات منهجية عند تقاطع HCI و N LP وتعيينها في سياق نماذج NLP القائمة على ML.هدفنا هو تعزيز التعاون المتعدد التخصصات والتقدم المحرز في كلا المجالين من خلال التركيز على ما يمكن أن تتعلمه الحقول من بعضها البعض.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا