تصف هذه الورقة مساهمتنا في المهمة المشتركة لإعادة تأييد Belz et al. (2021)، والذي يحقق في استنساخ التقييمات البشرية في سياق توليد اللغة الطبيعية. اخترنا توليد الورق من أوصاف الشركة باستخدام النماذج العميقة المفهوم إلى النص والنصوص العميقة: مجموعة البيانات التجميع والأنظمة "(Qader et al.، 2018) وتهدف إلى النسخ المتماثل، عن كثب إلى الأصل ممكن، التقييم البشري والمقارنة اللاحقة بين الأحكام الإنسانية ومقاييس التقييم التلقائي. هنا، نقوم أولا بتحديد مهمة جيل النص في ورقة قادر وآخرون. (2018). ثم، نحن نوثق كيف اقتربنا نسخينا من التقييم البشري للورقة. نناقش أيضا الصعوبات التي واجهناها والتي كانت المعلومات مفقودة. النسخ المتماثل لدينا له علاقة متوسطة إلى قوية (0.66 سبيرمان بشكل عام) مع النتائج الأصلية للقادير وآخرون. (2018)، ولكن بسبب المعلومات المفقودة حول مدى قادير وآخرون. (2018) مقارنة الأحكام الإنسانية بدرجات متري، امتنعنا عن إعادة إنتاج هذه المقارنة.
This paper describes our contribution to the Shared Task ReproGen by Belz et al. (2021), which investigates the reproducibility of human evaluations in the context of Natural Language Generation. We selected the paper Generation of Company descriptions using concept-to-text and text-to-text deep models: data set collection and systems evaluation'' (Qader et al., 2018) and aimed to replicate, as closely to the original as possible, the human evaluation and the subsequent comparison between the human judgements and the automatic evaluation metrics. Here, we first outline the text generation task of the paper of Qader et al. (2018). Then, we document how we approached our replication of the paper's human evaluation. We also discuss the difficulties we encountered and which information was missing. Our replication has medium to strong correlation (0.66 Spearman overall) with the original results of Qader et al. (2018), but due to the missing information about how Qader et al. (2018) compared the human judgements with the metric scores, we have refrained from reproducing this comparison.
References used
https://aclanthology.org/
Prior studies on text-to-text generation typically assume that the model could figure out what to attend to in the input and what to include in the output via seq2seq learning, with only the parallel training data and no additional guidance. However,
With the growing popularity of smart speakers, such as Amazon Alexa, speech is becoming one of the most important modes of human-computer interaction. Automatic speech recognition (ASR) is arguably the most critical component of such systems, as erro
We motivate and propose a suite of simple but effective improvements for concept-to-text generation called SAPPHIRE: Set Augmentation and Post-hoc PHrase Infilling and REcombination. We demonstrate their effectiveness on generative commonsense reason
This research shows the concept of sentence syntax and the text
syntax and the difference between them, beside their respective
areas .It also tries to specify the obstacles which prevent the
progress of this kind of linguistic lesson in our Arabi
Data-to-text generation systems are trained on large datasets, such as WebNLG, Ro-toWire, E2E or DART. Beyond traditional token-overlap evaluation metrics (BLEU or METEOR), a key concern faced by recent generators is to control the factuality of the