هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق نقل النمط، نجد أن بروتوكولات التقييمات البشرية غالبا ما تكون غير محددة وغير موحدة، والتي تعيق استنساخ البحث في هذا المجال والتقدم نحو أساليب تقييم بشرية وتلقائية أفضل.
This paper reviews and summarizes human evaluation practices described in 97 style transfer papers with respect to three main evaluation aspects: style transfer, meaning preservation, and fluency. In principle, evaluations by human raters should be the most reliable. However, in style transfer papers, we find that protocols for human evaluations are often underspecified and not standardized, which hampers the reproducibility of research in this field and progress toward better human and automatic evaluation methods.
المراجع المستخدمة
https://aclanthology.org/
في حين أن مجال نقل النمط (ST) ينمو بسرعة، فقد أعاقه بعدم وجود ممارسات موحدة للتقييم التلقائي.في هذه الورقة، نقوم بتقييم المقاييس التلقائية الرائدة على المهمة التي تم بحثها عن نقل أسلوب الأشكال.على عكس التقييمات السابقة، التي تركز فقط على اللغة الإنجل
تستند نماذج نقل النمط غير المزروعة بشكل رئيسي إلى نهج التعلم الاستقرائي، والذي يمثل النمط كمعلمات أو معلمات فك الترميز، أو معلمات تمييزية، وتطبق مباشرة هذه القواعد العامة لحالات الاختبار. ومع ذلك، فإن عدم وجود Corpus الموازي يعيق قدرة طرق التعلم الاس
توفر فقط جزء صغير من الأوراق البحثية مع التقييم البشري لتلخيص النص معلومات حول التركيبة السكانية المشارك وتصميم المهام وبروتوكول التجريب.بالإضافة إلى ذلك، يستخدم العديد من الباحثين التقييم البشري كمعيار ذهبي دون التشكيك في الموثوقية أو التحقيق في الع
تهدف نقل نمط النص إلى توليد نص محكم مع التغييرات الأسلوبية المستهدفة مع الحفاظ على المعنى الأساسي من ثابت الجملة. تركز العديد من معايير نقل النمط الموجودة في المقام الأول على التغييرات الدلالية الفردية الفردية (E.G. إيجابية إلى سلبية)، والتي تمكن من
نحن نبحث عن مشكلة الاختلال العظيمة في أبحاث معالجة اللغات الطبيعية، وهذا يعني ببساطة أن تعريف المشكلة لا يتماشى مع الطريقة المقترحة والتقييم البشري لا يتماشى مع التعريف ولا الطريقة.ندرس هذه المشكلة الاختلافة من خلال مسح 10 ورقات أخذ عينات عشوائيا منش