على الرغم من الأداء الحديثة، يمكن أن تكون أنظمة NLP هشة في مواقف العالم الحقيقي. غالبا ما يكون هذا بسبب عدم كفاية فهم قدرات وقيود النماذج والاعتماد الشديد على معايير التقييم القياسية. البحث في التقييم غير القياسي للتخفيف من هذا التجشير يكتسب اهتماما متزايدا. والجدير بالذكر أن قائمة التحقق من مبدأ الاختبار السلوكي، التي كشفت الشكوب من التنفيذ عن إخفاقات كبيرة في النماذج الحديثة لمهام متعددة. في هذه الورقة، نقدم دراسة حالة لاستخدام قائمة مرجعية في سيناريو عملي. نقوم بإجراء تجارب لتقييم نظام الكشف عن المحتوى الهجومي واستخدام تقنية تكبير البيانات لتحسين النموذج باستخدام الأفكار من قائمة التحقق. وضعنا التحديات وتفتح الأسئلة القائمة على ملاحظاتنا لاستخدام قائمة مرجعية لتقييم الإنسان في الحلقة وتحسين أنظمة NLP. إخلاء المسئولية: تحتوي الورقة على أمثلة على المحتوى مع لغة مسيئة. لا تمثل الأمثلة آراء المؤلفين أو أرباب العمل تجاه أي شخص (ق) أو جماعي أو جماعي أو الممارسة (الممارسة) أو الكيان / الكيانات.
Despite state-of-the-art performance, NLP systems can be fragile in real-world situations. This is often due to insufficient understanding of the capabilities and limitations of models and the heavy reliance on standard evaluation benchmarks. Research into non-standard evaluation to mitigate this brittleness is gaining increasing attention. Notably, the behavioral testing principle Checklist', which decouples testing from implementation revealed significant failures in state-of-the-art models for multiple tasks. In this paper, we present a case study of using Checklist in a practical scenario. We conduct experiments for evaluating an offensive content detection system and use a data augmentation technique for improving the model using insights from Checklist. We lay out the challenges and open questions based on our observations of using Checklist for human-in-loop evaluation and improvement of NLP systems. Disclaimer: The paper contains examples of content with offensive language. The examples do not represent the views of the authors or their employers towards any person(s), group(s), practice(s), or entity/entities.
المراجع المستخدمة
https://aclanthology.org/
جزء أساسي من حركة الأخلاقيات NLP هو استخدام البيانات المسؤولة عن البيانات، ولكن بالضبط ما يعنيه ذلك أو كيف يمكن تحقيقه بشكل أفضل لا يزال غير واضح.تناقش ورقة الموضع هذه المبادئ القانونية والأخلاقية الأساسية لجمع البيانات النصية ومشاركتها، والتوترات بي
نحن نبحث عن مشكلة الاختلال العظيمة في أبحاث معالجة اللغات الطبيعية، وهذا يعني ببساطة أن تعريف المشكلة لا يتماشى مع الطريقة المقترحة والتقييم البشري لا يتماشى مع التعريف ولا الطريقة.ندرس هذه المشكلة الاختلافة من خلال مسح 10 ورقات أخذ عينات عشوائيا منش
توفر فقط جزء صغير من الأوراق البحثية مع التقييم البشري لتلخيص النص معلومات حول التركيبة السكانية المشارك وتصميم المهام وبروتوكول التجريب.بالإضافة إلى ذلك، يستخدم العديد من الباحثين التقييم البشري كمعيار ذهبي دون التشكيك في الموثوقية أو التحقيق في الع
ركز العمل الحديث في معالجة اللغة الطبيعية (NLP) على التحديات الأخلاقية مثل الفهم والتخفيف من التحيز في البيانات والخوارزميات؛تحديد المحتوى المرفترض مثل خطاب الكراهية والقوالب النمطية واللغة المسيئة؛وبناء أطر من أجل تحسين تصميم النظام وممارسات معالجة
يصف هذا التقرير تقييم الدورة التدريبية لأنظمة NLP، التي تم تدريسها لطلاب البكالوريوس البالغة في فصل الشتاء 20/21 في جامعة بوتسدام، ألمانيا.كانت ندوة قائمة على المناقشة التي تغطي جوانب مختلفة من التقييم في NLP، وهي النماذج، والإجراءات المشتركة، والتصف