تعد التصنيفات البشرية واحدة من أكثر الطرق سائدة لتقييم أداء خوارزميات NLP (معالجة اللغة الطبيعية). وبالمثل، من الشائع قياس جودة الجمل الناتجة عن نموذج توليد اللغة الطبيعي باستخدام الدراسات البشرية. في هذه الورقة، نقول لاستكشاف استخدام التقييمات الذاتية ضمن عملية نماذج توليد اللغة التدريب في إعداد تعليمي متعدد المهام. كدراسة حالة، نستخدم كوربا حوارا مؤلفا من الحشود لضبط ستة نماذج توليد لغة مختلفة. يتضمن اثنان من هذه النماذج تعلم المهام المتعددة واستخدام التصنيفات الذاتية للخطوط كجزء من هدف التعلم الصريح. تكشف التقييم البشري لخطوط الحوار التي تم إنشاؤها أن الكلام الناتجة عن النماذج متعددة المهام تم تصنيفها بشكل ذاتي باعتبارها الأكثر نموذجية، وتحريك المحادثة للأمام، وأقل هجومية. استنادا إلى النتائج الأولى الواعدة، نقوم بمناقشة اتجاهات البحث في المستقبل لدمج التقييمات الإنسانية الذاتية في التدريب النموذجي اللغوي وبالتالي الحفاظ على المستخدم البشري في الحلقة أثناء عملية التطوير.
Human ratings are one of the most prevalent methods to evaluate the performance of NLP (natural language processing) algorithms. Similarly, it is common to measure the quality of sentences generated by a natural language generation model using human raters. In this paper we argue for exploring the use of subjective evaluations within the process of training language generation models in a multi-task learning setting. As a case study, we use a crowd-authored dialogue corpus to fine-tune six different language generation models. Two of these models incorporate multi-task learning and use subjective ratings of lines as part of an explicit learning goal. A human evaluation of the generated dialogue lines reveals that utterances generated by the multi-tasking models were subjectively rated as the most typical, most moving the conversation forward, and least offensive. Based on these promising first results, we discuss future research directions for incorporating subjective human evaluations into language model training and to hence keep the human user in the loop during the development process.
المراجع المستخدمة
https://aclanthology.org/
يشكل جيل النص المخصب المعرفي تحديات فريدة من نوعها في النمذجة والتعلم، مما يدفع البحوث النشطة في العديد من الاتجاهات الأساسية، بدءا من النمذجة المتكاملة للتمثيل العصبي والمعلومات الرمزية في الهياكل التسلسلية / الهرمية / الهرمية، والتعلم دون إشراف مبا
نسأل الموضوعات سواء كانوا ينظرون إلى وجود مجموعة من النصوص، وبعضها مكتوب بالفعل، في حين يتم إنشاء آخرين تلقائيا.نحن نستخدم هذه البيانات لضبط نموذج GPT-2 لدفعه لتوليد المزيد من النصوص التي يشبه الإنسان، ومراقبة أن هذا النموذج الذي تم ضبطه بشكل جيد ينت
نقترح نهجا لاختبار الأصالة تلقائيا في مهام الجيل حيث توجد أي تدابير تلقائية قياسية موجودة.يتناول اقتراحنا الاستخدامات الأصلية للغة، وليس بالضرورة الأفكار الأصلية.نحن نقدم خوارزمية لنهجنا وتحليل وقت التشغيل.الخوارزمية، التي تجد جميع الشظايا الأصلية في
في هذه الورقة، ندرس استخدام النماذج اللغوية المدربة مسبقا لتمكين توليد لغة البندقية القليلة (NLG) في أنظمة الحوار الموجهة نحو المهام. نقدم نظاما يتكون من التدريب الذاتي التكراري وإطار قالب صغير قابل للتوسيع يتم تخصيص بيانات الإدخال المهيكلة في نص شبه
نحن نقدم جوهرة، معيار معيشة لتوليد اللغة الطبيعية (NLG)، تقييمه، ومقاييسه.تعتمد التقدم المحرز في NLG على نظام بيئي متطور باستمرار للمقاييس الآلية ومجموعات البيانات ومعايير التقييم البشري.نظرا لهذا الهدف المتحرك، لا تزال هناك نماذج جديدة غالبا ما لا ت