دراسة حالة للفعالية والتحديات في التقييم العملي للإنسان في الحلقة التابعة للنظم NLP باستخدام قائمة مرجعية


الملخص بالعربية

على الرغم من الأداء الحديثة، يمكن أن تكون أنظمة NLP هشة في مواقف العالم الحقيقي. غالبا ما يكون هذا بسبب عدم كفاية فهم قدرات وقيود النماذج والاعتماد الشديد على معايير التقييم القياسية. البحث في التقييم غير القياسي للتخفيف من هذا التجشير يكتسب اهتماما متزايدا. والجدير بالذكر أن قائمة التحقق من مبدأ الاختبار السلوكي، التي كشفت الشكوب من التنفيذ عن إخفاقات كبيرة في النماذج الحديثة لمهام متعددة. في هذه الورقة، نقدم دراسة حالة لاستخدام قائمة مرجعية في سيناريو عملي. نقوم بإجراء تجارب لتقييم نظام الكشف عن المحتوى الهجومي واستخدام تقنية تكبير البيانات لتحسين النموذج باستخدام الأفكار من قائمة التحقق. وضعنا التحديات وتفتح الأسئلة القائمة على ملاحظاتنا لاستخدام قائمة مرجعية لتقييم الإنسان في الحلقة وتحسين أنظمة NLP. إخلاء المسئولية: تحتوي الورقة على أمثلة على المحتوى مع لغة مسيئة. لا تمثل الأمثلة آراء المؤلفين أو أرباب العمل تجاه أي شخص (ق) أو جماعي أو جماعي أو الممارسة (الممارسة) أو الكيان / الكيانات.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث