تنمية إرشادات الوثائق والقوالب سهلة الاستخدام لمجموعات البيانات والنماذج مهمة صعبة، خاصة بالنظر إلى مجموعة متنوعة من الخلفيات والمهارات وحوافز الأشخاص المشاركين في بناء أدوات معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن اعتماد ممارسات الوثائق القياسية في مجال NLP يعزز أوصاف أكثر سهولة ومفصلة عن مجموعات البيانات والنماذج NLP، مع دعم الباحثين والمطورين في التفكير في عملهم. للمساعدة في توحيد الوثائق، نقدم دراستين بحالتين للجهود التي تهدف إلى تطوير قوالب الوثائق القابلة لإعادة الاستخدام - بطاقة بيانات المعانقة، بطاقة للأغراض العامة لمجموعات البيانات في NLP، والبيانات القياسية Gem البطاقات النموذجية مع التركيز توليد اللغة الطبيعية. نحن نصف عمليتنا لتطوير هذه القوالب، بما في ذلك تحديد مجموعات أصحاب المصلحة المعنيين، وتعريف مجموعة من المبادئ التوجيهية، واستخدام القوالب الحالية كأساس لدينا، ومراجعات تكرارية تستند إلى ردود الفعل.
Developing documentation guidelines and easy-to-use templates for datasets and models is a challenging task, especially given the variety of backgrounds, skills, and incentives of the people involved in the building of natural language processing (NLP) tools. Nevertheless, the adoption of standard documentation practices across the field of NLP promotes more accessible and detailed descriptions of NLP datasets and models, while supporting researchers and developers in reflecting on their work. To help with the standardization of documentation, we present two case studies of efforts that aim to develop reusable documentation templates -- the HuggingFace data card, a general purpose card for datasets in NLP, and the GEM benchmark data and model cards with a focus on natural language generation. We describe our process for developing these templates, including the identification of relevant stakeholder groups, the definition of a set of guiding principles, the use of existing templates as our foundation, and iterative revisions based on feedback.
References used
https://aclanthology.org/
Despite its proven efficiency in other fields, data augmentation is less popular in the context of natural language processing (NLP) due to its complexity and limited results. A recent study (Longpre et al., 2020) showed for example that task-agnosti
Many statistical models have high accuracy on test benchmarks, but are not explainable, struggle in low-resource scenarios, cannot be reused for multiple tasks, and cannot easily integrate domain expertise. These factors limit their use, particularly
The field of Natural Language Processing (NLP) changes rapidly, requiring course offerings to adjust with those changes, and NLP is not just for computer scientists; it's a field that should be accessible to anyone who has a sufficient background. In
Existing pre-trained language models (PLMs) have demonstrated the effectiveness of self-supervised learning for a broad range of natural language processing (NLP) tasks. However, most of them are not explicitly aware of domain-specific knowledge, whi
It is generally agreed upon in the natural language processing (NLP) community that ethics should be integrated into any curriculum. Being aware of and understanding the relevant core concepts is a prerequisite for following and participating in the