ترغب بنشر مسار تعليمي؟ اضغط هنا

مخاطر استخدام الترك الميكانيكي لتقييم جيل النص مفتوح العضوية

The Perils of Using Mechanical Turk to Evaluate Open-Ended Text Generation

397   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

ركزت أبحاث جيل النص الحديثة بشكل متزايد على المجالات المفتوحة مثل القصة وتوليد الشعر. نظرا لأن النماذج التي تم بناؤها لهذه المهام يصعب تقييمها تلقائيا، يبرر معظم الباحثين في الفضاء خيارات النمذجة عن طريق جمع الأحكام البشرية الجماعية لجودة النص (على سبيل المثال، عشرات Likert من الاتساق أو النحاس) من Amazon Mechanical Turk (AMT). في هذه الورقة، نقوم أولا بإجراء دراسة استقصائية قدرها 45 ورقة من جيل النص مفتوح العضوية وتجد أن الغالبية العظمى منهم يفشلون في الإبلاغ عن تفاصيل حاسمة حول مهام AMT الخاصة بهم، مما أعاق الاستيلاء. بعد ذلك، قم بتشغيل سلسلة من تجارب تقييم القصة مع كل من عمال AMT ومعلمي اللغة الإنجليزية واكتشف أنه حتى مع مرشحات التأهيل الصارمة، يفشل عمال AMT (على عكس المعلمين) في التمييز بين النص النموذجي والمراجع التي تم إنشاؤها الإنسان. نظهر أن أحكام عامل AMT تتحسن عند إظهار الناتج الناتج عن النموذج إلى جانب المراجع التي يتم إنشاؤها من قبل الإنسان، مما يتيح العمال معا معايرة تقييماتهم بشكل أفضل. أخيرا، توفر المقابلات مع معلمي اللغة الإنجليزية رؤى أعمق في تحديات عملية التقييم، خاصة عند تصنيف النص الذي تم إنشاؤه النموذج.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يركز البحث في مجال المنطق الحالي على تطوير النماذج التي تستخدم معرفة المنطقية للإجابة على أسئلة متعددة الخيارات. ومع ذلك، قد لا تكون النظم المصممة للإجابة على أسئلة متعددة الخيارات مفيدة في التطبيقات التي لا توفر قائمة صغيرة من إجابات المرشحين للاختي ار من بينها. كخطوة نحو جعل البحث منطق المنطقي أكثر واقعية، نقترح دراسة مسطحة المنطقية المفتوحة العضوية (OPENCSR) --- مهمة الإجابة على سؤال المنطقي دون أي اختيارات محددة مسبقا --- استخدام كموارد فقط حقائق المنطقية مكتوبة باللغة الطبيعية. OpenCSR تحديا بسبب مساحة قرارات كبيرة، ولأن العديد من الأسئلة تتطلب منطق متعدد القفز الضمني. كنعجا من OpenCSR، نقترح نماذج شديدة الفضلة للمناسبة متعددة القفز بشأن حقائق المعرفة. لتقييم أساليب OpenCSR، نقوم بتكييف العديد من معايير المنطق المنطقية الشائعة، وجمع إجابات جديدة متعددة لكل سؤال اختبار عبر مصادر الحشد. تظهر التجارب أن DrFact تفوق أساليب أساسية قوية من قبل هامش كبير.
نقدم تاريخ DART، سجل بيانات منظم في المجال المفتوح إلى مجموعة بيانات جيل النص مع أكثر من 82 ألف حالة (لعبة السهام). يمكن أن تكون التعليقات التوضيحية البيانات إلى النص عملية مكلفة، خاصة عند التعامل مع الجداول التي تعد المصدر الرئيسي للبيانات المنظمة و يحتوي على هياكل غيرية. تحقيقا لهذه الغاية، نقترح إجراءات لاستخراج ثلاث مرات الدلالية من الجداول التي ترميز هياكلها من خلال استغلال التبعيات الدلالية بين رؤوس الطاولة وعنوان الجدول. اندمج إطار عمل مواد DataSet لدينا مصادر غير متجانسة بفعالية من أنظمة التحليل الدلالي المفتوح المجال والتحريغ عن طريق استخدام التقنيات بما في ذلك التوضيح التوضيحية في علم الأطباق، زوج الإجابة السؤالية إلى تحويل الجملة التصريحي، وتوحيد المسند، كل ذلك مع الحد الأدنى من التحرير بعد التحرير. نقدم التقييم المنهجي على DART بالإضافة إلى نتائج جديدة من أحدث النتائج على WebNLG 2017 لإظهار أن Dart (1) يطرح تحديات جديدة إلى مجموعات البيانات الحالية إلى النص و (2) تسهيل التعميم خارج النطاق وبعد يمكن العثور على بيانات ورمز لدينا في https://github.com/yale-lily/dart.
يتم تدريب أنظمة توليد البيانات إلى النص على مجموعات البيانات الكبيرة، مثل Webnlg أو RO-Towire أو E2E أو DART. ما وراء مقاييس تقييم الرمز المميز التقليدي (بلو أو نيزك)، فإن القلق الرئيسي الذي يواجهه المولدات الأخيرة هو السيطرة على واقعية النص الذي تم إنشاؤه فيما يتعلق بمواصفات بيانات الإدخال. نبلغ عن تجربتنا عند تطوير نظام تقييم واقعي للوصول التوظيف لتوليد البيانات إلى النص الذي نختبره على بيانات Webnlg و E2E. نحن نهدف إلى إعداد بيانات ذهبية تفوحية يدويا لتحديد الحالات التي ينقل فيها النص معلومات أكثر مما يبرره على أساس البيانات قيد التشغيل (إضافي) أو فشل في توصيل البيانات التي تعد جزءا من الإدخال (مفقود). أثناء تحليل العينات المرجعية (البيانات والنص)، واجهنا مجموعة من عدم اليقين المنهجي المرتبط بالحالات المتعلقة بالظواهر الضمنية في النص، وطبيعة المعرفة غير اللغوية نتوقع أن نشارك عند تقييم الواقعية. ونحن نستمد من خبرتنا مجموعة من المبادئ التوجيهية التقييم للوصول إلى اتفاق مرتفع فيما يتعلق بالمعقيقات بشأن هذه الحالات.
في هذه الورقة، نقدم متري جديد يعتمد على تضمين التعاون على نماذج التصنيف القابلة للتدريب لتقييم الدقة الدلالية لمولدات البيانات النصية العصبية. هذا المتريات مناسب بشكل خاص لتقييم أداء مولد النص بشكل خاص بشكل خاص وتقييم فعليا عندما يمكن ربط الجداول بمر اجع متعددة وقيم الجدول تحتوي على كلمات نصية نصية. نقدم أولا كيف يمكن للمرء تنفيذ ومزيد من التخصص المتخصص من خلال تدريب نماذج التصنيف الأساسية في مجموعة بيانات قانونية إلى نصية. نظهر كيف قد يوفر ذلك تقييما أكثر قوة من مخططات التقييم الأخرى في الإعدادات الصعبة باستخدام مجموعة بيانات تضم أي رسوم بين قيم الجدول ومراجعها. أخيرا، نقوم بتقييم قدرات تعميمها على مجموعة بيانات معروفة، و WEBNLG، بمقارنتها بالتقييم البشري ومقياس تم إدخاله مؤخرا بناء على الاستدلال اللغوي الطبيعي. بعد ذلك، توضح كيف تميز بشكل طبيعي، سواء من الناحية الكمية والنوعية والإغفالات والهلوسة.
الوصف التحليلي للمخططات هو منطقة بحثية ومهمة ذات العديد من التطبيقات في الأوساط الأكاديمية والصناعة.ومع ذلك، فقد تلقت هذه المهمة الصعبة اهتماما محدودا من مجتمع أبحاث اللغويات الحاسوبية.تقترح هذه الورقة Autochart، مجموعة بيانات كبيرة للوصف التحليلي لل مخططات، التي تهدف إلى تشجيع المزيد من البحث في هذا المجال الهام.على وجه التحديد، نقدم إطارا جديدا ينشئ المخططات ووصفها التحليلي تلقائيا.أجرينا تقييما واسع النطاق للإنسان والآلات على الرسوم البيانية والأوصاف التي تم إنشاؤها وإظهار أن النصوص التي تم إنشاؤها مفيدة ومتماسكة وذات صلة بالمخططات المقابلة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا