ترغب بنشر مسار تعليمي؟ اضغط هنا

دراسة حالة للفعالية والتحديات في التقييم العملي للإنسان في الحلقة التابعة للنظم NLP باستخدام قائمة مرجعية

A Case Study of Efficacy and Challenges in Practical Human-in-Loop Evaluation of NLP Systems Using Checklist

254   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

على الرغم من الأداء الحديثة، يمكن أن تكون أنظمة NLP هشة في مواقف العالم الحقيقي. غالبا ما يكون هذا بسبب عدم كفاية فهم قدرات وقيود النماذج والاعتماد الشديد على معايير التقييم القياسية. البحث في التقييم غير القياسي للتخفيف من هذا التجشير يكتسب اهتماما متزايدا. والجدير بالذكر أن قائمة التحقق من مبدأ الاختبار السلوكي، التي كشفت الشكوب من التنفيذ عن إخفاقات كبيرة في النماذج الحديثة لمهام متعددة. في هذه الورقة، نقدم دراسة حالة لاستخدام قائمة مرجعية في سيناريو عملي. نقوم بإجراء تجارب لتقييم نظام الكشف عن المحتوى الهجومي واستخدام تقنية تكبير البيانات لتحسين النموذج باستخدام الأفكار من قائمة التحقق. وضعنا التحديات وتفتح الأسئلة القائمة على ملاحظاتنا لاستخدام قائمة مرجعية لتقييم الإنسان في الحلقة وتحسين أنظمة NLP. إخلاء المسئولية: تحتوي الورقة على أمثلة على المحتوى مع لغة مسيئة. لا تمثل الأمثلة آراء المؤلفين أو أرباب العمل تجاه أي شخص (ق) أو جماعي أو جماعي أو الممارسة (الممارسة) أو الكيان / الكيانات.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

جزء أساسي من حركة الأخلاقيات NLP هو استخدام البيانات المسؤولة عن البيانات، ولكن بالضبط ما يعنيه ذلك أو كيف يمكن تحقيقه بشكل أفضل لا يزال غير واضح.تناقش ورقة الموضع هذه المبادئ القانونية والأخلاقية الأساسية لجمع البيانات النصية ومشاركتها، والتوترات بي نهما.نقترح قائمة مرجعية محتملة لاستخدام البيانات المسؤولة (إعادة) والتي يمكن أن توحيد مراجعة النظراء لتقديمات المؤتمرات، وكذلك تمكين رؤية أكثر متعمقة للبحث المنشور في جميع أنحاء المجتمع.تهدف اقتراحنا إلى المساهمة في تطوير معيار متسق لاستخدام البيانات (إعادة)، واحتضنت مؤتمرات NLP.
نحن نبحث عن مشكلة الاختلال العظيمة في أبحاث معالجة اللغات الطبيعية، وهذا يعني ببساطة أن تعريف المشكلة لا يتماشى مع الطريقة المقترحة والتقييم البشري لا يتماشى مع التعريف ولا الطريقة.ندرس هذه المشكلة الاختلافة من خلال مسح 10 ورقات أخذ عينات عشوائيا منش ورة في ACL 2020 التي ينتج عنها التقرير البشري.تظهر نتائجنا أن ورقة واحدة فقط كانت متوافقة تماما من حيث تعريف المشكلة والطريقة والتقييم.قدمت ورقتين فقط تقييم بشري يتماشى مع ما تم تصميمه في الطريقة.وتسليط الضوء على هذه النتائج أن مشكلة الاختلافة العظيمة هي رئيسة كبيرة وتؤثر على صحة وتطوير النتائج التي حصل عليها تقييم بشري.
توفر فقط جزء صغير من الأوراق البحثية مع التقييم البشري لتلخيص النص معلومات حول التركيبة السكانية المشارك وتصميم المهام وبروتوكول التجريب.بالإضافة إلى ذلك، يستخدم العديد من الباحثين التقييم البشري كمعيار ذهبي دون التشكيك في الموثوقية أو التحقيق في الع وامل التي قد تؤثر على موثوقية التقييم البشري.نتيجة لذلك، هناك نقص في أفضل الممارسات لتقييم التلخيص البشري الموثوق به على أدلة تجريبية.للتحقيق في موثوقية التقييم البشري، نقوم بإجراء سلسلة من تجارب التقييم البشري، وتقديم نظرة عامة على التركيبة السكانية المشارك، وتصميم المهام، وإعداد التجريبية ومقارنة النتائج من تجارب مختلفة.بناء على تحليلنا التجريبي، نقدم مبادئ توجيهية لضمان موثوقية التقييمات الخبراء وغير الخبراء، ونحن نحدد العوامل التي قد تؤثر على موثوقية التقييم البشري.
ركز العمل الحديث في معالجة اللغة الطبيعية (NLP) على التحديات الأخلاقية مثل الفهم والتخفيف من التحيز في البيانات والخوارزميات؛تحديد المحتوى المرفترض مثل خطاب الكراهية والقوالب النمطية واللغة المسيئة؛وبناء أطر من أجل تحسين تصميم النظام وممارسات معالجة البيانات.ومع ذلك، لم يكن هناك قليل من النقاش حول المؤسسات الأخلاقية التي تكمن وراء هذه الجهود.في هذا العمل، ندرس نظرية أخلاقية واحدة، وهي أخلاقيات غير نائبة، من منظور NLP.على وجه الخصوص، نركز على مبدأ التعميم واحترام الحكم الذاتي من خلال الموافقة المستنيرة.نحن نقدم أربع دراسات حالات لإظهار كيفية استخدام هذه المبادئ مع أنظمة NLP.نوصي أيضا بالتوجيهات لتجنب القضايا الأخلاقية في هذه الأنظمة.
يصف هذا التقرير تقييم الدورة التدريبية لأنظمة NLP، التي تم تدريسها لطلاب البكالوريوس البالغة في فصل الشتاء 20/21 في جامعة بوتسدام، ألمانيا.كانت ندوة قائمة على المناقشة التي تغطي جوانب مختلفة من التقييم في NLP، وهي النماذج، والإجراءات المشتركة، والتصف ية بالبيانات، ومقاييس وقياسات، واختبار الأهمية الإحصائية، وأفضل الممارسات والنهج المشتركة في مهام وتطبيقات NLP محددة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا