ركزت أبحاث جيل النص الحديثة بشكل متزايد على المجالات المفتوحة مثل القصة وتوليد الشعر. نظرا لأن النماذج التي تم بناؤها لهذه المهام يصعب تقييمها تلقائيا، يبرر معظم الباحثين في الفضاء خيارات النمذجة عن طريق جمع الأحكام البشرية الجماعية لجودة النص (على سبيل المثال، عشرات Likert من الاتساق أو النحاس) من Amazon Mechanical Turk (AMT). في هذه الورقة، نقوم أولا بإجراء دراسة استقصائية قدرها 45 ورقة من جيل النص مفتوح العضوية وتجد أن الغالبية العظمى منهم يفشلون في الإبلاغ عن تفاصيل حاسمة حول مهام AMT الخاصة بهم، مما أعاق الاستيلاء. بعد ذلك، قم بتشغيل سلسلة من تجارب تقييم القصة مع كل من عمال AMT ومعلمي اللغة الإنجليزية واكتشف أنه حتى مع مرشحات التأهيل الصارمة، يفشل عمال AMT (على عكس المعلمين) في التمييز بين النص النموذجي والمراجع التي تم إنشاؤها الإنسان. نظهر أن أحكام عامل AMT تتحسن عند إظهار الناتج الناتج عن النموذج إلى جانب المراجع التي يتم إنشاؤها من قبل الإنسان، مما يتيح العمال معا معايرة تقييماتهم بشكل أفضل. أخيرا، توفر المقابلات مع معلمي اللغة الإنجليزية رؤى أعمق في تحديات عملية التقييم، خاصة عند تصنيف النص الذي تم إنشاؤه النموذج.
Recent text generation research has increasingly focused on open-ended domains such as story and poetry generation. Because models built for such tasks are difficult to evaluate automatically, most researchers in the space justify their modeling choices by collecting crowdsourced human judgments of text quality (e.g., Likert scores of coherence or grammaticality) from Amazon Mechanical Turk (AMT). In this paper, we first conduct a survey of 45 open-ended text generation papers and find that the vast majority of them fail to report crucial details about their AMT tasks, hindering reproducibility. We then run a series of story evaluation experiments with both AMT workers and English teachers and discover that even with strict qualification filters, AMT workers (unlike teachers) fail to distinguish between model-generated text and human-generated references. We show that AMT worker judgments improve when they are shown model-generated output alongside human-generated references, which enables the workers to better calibrate their ratings. Finally, interviews with the English teachers provide deeper insights into the challenges of the evaluation process, particularly when rating model-generated text.
References used
https://aclanthology.org/
Current commonsense reasoning research focuses on developing models that use commonsense knowledge to answer multiple-choice questions. However, systems designed to answer multiple-choice questions may not be useful in applications that do not provid
We present DART, an open domain structured DAta Record to Text generation dataset with over 82k instances (DARTs). Data-to-text annotations can be a costly process, especially when dealing with tables which are the major source of structured data and
Data-to-text generation systems are trained on large datasets, such as WebNLG, Ro-toWire, E2E or DART. Beyond traditional token-overlap evaluation metrics (BLEU or METEOR), a key concern faced by recent generators is to control the factuality of the
In this paper, we introduce a new embedding-based metric relying on trainable ranking models to evaluate the semantic accuracy of neural data-to-text generators. This metric is especially well suited to semantically and factually assess the performan
The analytical description of charts is an exciting and important research area with many applications in academia and industry. Yet, this challenging task has received limited attention from the computational linguistics research community. This pap