جزء أساسي من حركة الأخلاقيات NLP هو استخدام البيانات المسؤولة عن البيانات، ولكن بالضبط ما يعنيه ذلك أو كيف يمكن تحقيقه بشكل أفضل لا يزال غير واضح.تناقش ورقة الموضع هذه المبادئ القانونية والأخلاقية الأساسية لجمع البيانات النصية ومشاركتها، والتوترات بينهما.نقترح قائمة مرجعية محتملة لاستخدام البيانات المسؤولة (إعادة) والتي يمكن أن توحيد مراجعة النظراء لتقديمات المؤتمرات، وكذلك تمكين رؤية أكثر متعمقة للبحث المنشور في جميع أنحاء المجتمع.تهدف اقتراحنا إلى المساهمة في تطوير معيار متسق لاستخدام البيانات (إعادة)، واحتضنت مؤتمرات NLP.
A key part of the NLP ethics movement is responsible use of data, but exactly what that means or how it can be best achieved remain unclear. This position paper discusses the core legal and ethical principles for collection and sharing of textual data, and the tensions between them. We propose a potential checklist for responsible data (re-)use that could both standardise the peer review of conference submissions, as well as enable a more in-depth view of published research across the community. Our proposal aims to contribute to the development of a consistent standard for data (re-)use, embraced across NLP conferences.
المراجع المستخدمة
https://aclanthology.org/
على الرغم من الأداء الحديثة، يمكن أن تكون أنظمة NLP هشة في مواقف العالم الحقيقي. غالبا ما يكون هذا بسبب عدم كفاية فهم قدرات وقيود النماذج والاعتماد الشديد على معايير التقييم القياسية. البحث في التقييم غير القياسي للتخفيف من هذا التجشير يكتسب اهتماما
التحيز بين الجنسين هو حدوث متكرر في التطبيقات القائمة على البرامج الوطنية للتنمية الوطنية، وخاصة وضوحا باللغات التي يتم تنشيطها بين الجنسين. يمكن أن تظهر التحيز من خلال جمعيات بعض الصفات وتحريك الأسماء مع الجنس الطبيعي للإرازات، ولكن أيضا بسبب التردد
Semeval هو المكان الرئيسي في مجتمع NLP لاقتراح التحديات الجديدة والتقييم التجريبي المنهجي لأنظمة NLP.توفر هذه الورقة تحليلا قياسيا منهيا لسيميفال تهدف إلى الأدلة على أنماط المساهمات وراء Semeval.من خلال فهم توزيع أنواع المهام والمقاييس والبنية والمشا
يتم تدريب معظم أنظمة الترجمة الآلية المتزامنة (SIMT) وتقييمها في Offline Translation Corpora.نحن نقول أن أنظمة SIMT يجب تدريبها واختبارها على بيانات التفسير الحقيقي.لتوضيح هذه الحجة، نقترح مجموعة اختبار التفسير وإجراء تقييم واقعي ل Simt المدربة على ا
هجمات الخصومة تغيير تنبؤات نموذج NLP من خلال اضطراب مدخلات وقت الاختبار.ومع ذلك، فمن الأقل تفهم سواء، وكيف يمكن التلاعب بالتنبؤات مع تغييرات صغيرة مخفية في بيانات التدريب.في هذا العمل، نقوم بتطوير هجوم جديد لتسمم البيانات يتيح خصما للسيطرة على تنبؤات