قوالب وأدلة قابلة لإعادة الاستخدام لتوثيق مجموعات البيانات والنماذج لمعالجة اللغة الطبيعية والجيل: دراسة حالة لبيانات المعانقة وبطاقات النماذج GEM


الملخص بالعربية

تنمية إرشادات الوثائق والقوالب سهلة الاستخدام لمجموعات البيانات والنماذج مهمة صعبة، خاصة بالنظر إلى مجموعة متنوعة من الخلفيات والمهارات وحوافز الأشخاص المشاركين في بناء أدوات معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن اعتماد ممارسات الوثائق القياسية في مجال NLP يعزز أوصاف أكثر سهولة ومفصلة عن مجموعات البيانات والنماذج NLP، مع دعم الباحثين والمطورين في التفكير في عملهم. للمساعدة في توحيد الوثائق، نقدم دراستين بحالتين للجهود التي تهدف إلى تطوير قوالب الوثائق القابلة لإعادة الاستخدام - بطاقة بيانات المعانقة، بطاقة للأغراض العامة لمجموعات البيانات في NLP، والبيانات القياسية Gem البطاقات النموذجية مع التركيز توليد اللغة الطبيعية. نحن نصف عمليتنا لتطوير هذه القوالب، بما في ذلك تحديد مجموعات أصحاب المصلحة المعنيين، وتعريف مجموعة من المبادئ التوجيهية، واستخدام القوالب الحالية كأساس لدينا، ومراجعات تكرارية تستند إلى ردود الفعل.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث