تنمية إرشادات الوثائق والقوالب سهلة الاستخدام لمجموعات البيانات والنماذج مهمة صعبة، خاصة بالنظر إلى مجموعة متنوعة من الخلفيات والمهارات وحوافز الأشخاص المشاركين في بناء أدوات معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن اعتماد ممارسات الوثائق القياسية في مجال NLP يعزز أوصاف أكثر سهولة ومفصلة عن مجموعات البيانات والنماذج NLP، مع دعم الباحثين والمطورين في التفكير في عملهم. للمساعدة في توحيد الوثائق، نقدم دراستين بحالتين للجهود التي تهدف إلى تطوير قوالب الوثائق القابلة لإعادة الاستخدام - بطاقة بيانات المعانقة، بطاقة للأغراض العامة لمجموعات البيانات في NLP، والبيانات القياسية Gem البطاقات النموذجية مع التركيز توليد اللغة الطبيعية. نحن نصف عمليتنا لتطوير هذه القوالب، بما في ذلك تحديد مجموعات أصحاب المصلحة المعنيين، وتعريف مجموعة من المبادئ التوجيهية، واستخدام القوالب الحالية كأساس لدينا، ومراجعات تكرارية تستند إلى ردود الفعل.
Developing documentation guidelines and easy-to-use templates for datasets and models is a challenging task, especially given the variety of backgrounds, skills, and incentives of the people involved in the building of natural language processing (NLP) tools. Nevertheless, the adoption of standard documentation practices across the field of NLP promotes more accessible and detailed descriptions of NLP datasets and models, while supporting researchers and developers in reflecting on their work. To help with the standardization of documentation, we present two case studies of efforts that aim to develop reusable documentation templates -- the HuggingFace data card, a general purpose card for datasets in NLP, and the GEM benchmark data and model cards with a focus on natural language generation. We describe our process for developing these templates, including the identification of relevant stakeholder groups, the definition of a set of guiding principles, the use of existing templates as our foundation, and iterative revisions based on feedback.
المراجع المستخدمة
https://aclanthology.org/
على الرغم من كفاءتها المثبتة في المجالات الأخرى، فإن تكبير البيانات أقل شعبية في سياق معالجة اللغة الطبيعية (NLP) بسبب تعقيدها ونتائج محدودة.أظهرت دراسة حديثة (Longpre et al.، 2020) على سبيل المثال أن تعزز بيانات المهمة غير المرغوية تفشل في تعزيز أدا
العديد من النماذج الإحصائية لها دقة عالية على معايير الاختبار، ولكنها ليست تفسيرها، لا يمكن إعادة استخدام النضال في سيناريوهات الموارد المنخفضة، ولا يمكن إعادة استخدامها لمهام متعددة، ولا يمكن دمج خبرات المجال بسهولة.هذه العوامل تحد من استخدامها، لا
يتغير مجال معالجة اللغة الطبيعية (NLP) بسرعة، مما يتطلب عروض الدورة التدريبية للتكيف مع تلك التغييرات، و NLP ليس فقط لعلماء الكمبيوتر؛إنه مجال يجب أن يكون متاحا لأي شخص لديه خلفية كافية.في هذه الورقة، أشرح كيف يمكن إعداد الطلاب الذين لديهم خلفيات علو
أظهرت نماذج اللغة الموجودة مسبقا مسبقا (PLMS) فعالية التعلم الإشراف على الذات لمجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن معظمهم لا يدركون بشكل صريح المعرفة الخاصة بالمجال، وهو أمر ضروري لمهام المصب في العديد من المجالات، مثل المه
يتم الاتفاق بشكل عام في مجتمع معالجة اللغة الطبيعية (NLP) على أنه ينبغي دمج الأخلاقيات في أي منهج.إدراك وفهم المفاهيم الأساسية ذات الصلة هو شرط أساسي فيما يتعلق بالمشاركة والمشاركة في الخطاب على NLP الأخلاقية.نقدم هنا مواد تعليمية جاهزة في شكل شرائح