مخاطر استخدام الترك الميكانيكي لتقييم جيل النص مفتوح العضوية


الملخص بالعربية

ركزت أبحاث جيل النص الحديثة بشكل متزايد على المجالات المفتوحة مثل القصة وتوليد الشعر. نظرا لأن النماذج التي تم بناؤها لهذه المهام يصعب تقييمها تلقائيا، يبرر معظم الباحثين في الفضاء خيارات النمذجة عن طريق جمع الأحكام البشرية الجماعية لجودة النص (على سبيل المثال، عشرات Likert من الاتساق أو النحاس) من Amazon Mechanical Turk (AMT). في هذه الورقة، نقوم أولا بإجراء دراسة استقصائية قدرها 45 ورقة من جيل النص مفتوح العضوية وتجد أن الغالبية العظمى منهم يفشلون في الإبلاغ عن تفاصيل حاسمة حول مهام AMT الخاصة بهم، مما أعاق الاستيلاء. بعد ذلك، قم بتشغيل سلسلة من تجارب تقييم القصة مع كل من عمال AMT ومعلمي اللغة الإنجليزية واكتشف أنه حتى مع مرشحات التأهيل الصارمة، يفشل عمال AMT (على عكس المعلمين) في التمييز بين النص النموذجي والمراجع التي تم إنشاؤها الإنسان. نظهر أن أحكام عامل AMT تتحسن عند إظهار الناتج الناتج عن النموذج إلى جانب المراجع التي يتم إنشاؤها من قبل الإنسان، مما يتيح العمال معا معايرة تقييماتهم بشكل أفضل. أخيرا، توفر المقابلات مع معلمي اللغة الإنجليزية رؤى أعمق في تحديات عملية التقييم، خاصة عند تصنيف النص الذي تم إنشاؤه النموذج.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث