تصف هذه الورقة التقديم من قبل Nuig-DSI إلى Benchmark GEM 2021. نشارك في المهمة المشتركة النمذجة حيث نقدم مخرجات على أربع مجموعات بيانات للجيل إلى النص، وهي DART، WEBNLG (EN)، E2E و COMMINGEN.نتبع النهج الذي يشبه الواحدة الموصوفة في الورق القياسي GEM حيث نستخدم النموذج T5-Base المدرب مسبقا لتقديمنا.نحن ندرب هذا النموذج على بيانات أحادية الذهاب إضافية حيث نقوم بتجربة استراتيجيات اخفاء مختلفة تركز على وجه التحديد على كيانات إخفاء، وتندب المفاهيم وكذلك استراتيجية إخفاء عشوائية للتدريب المسبق.في نتائجنا، نجد أن الاخفاء العشوائي يؤدي الأفضل من حيث مقاييس التقييم التلقائي، على الرغم من أن النتائج ليست مختلفة بشكل كبير مقارنة باستراتيجيات اخفاء أخرى.
This paper describes the submission by NUIG-DSI to the GEM benchmark 2021. We participate in the modeling shared task where we submit outputs on four datasets for data-to-text generation, namely, DART, WebNLG (en), E2E and CommonGen. We follow an approach similar to the one described in the GEM benchmark paper where we use the pre-trained T5-base model for our submission. We train this model on additional monolingual data where we experiment with different masking strategies specifically focused on masking entities, predicates and concepts as well as a random masking strategy for pre-training. In our results we find that random masking performs the best in terms of automatic evaluation metrics, though the results are not statistically significantly different compared to other masking strategies.
References used
https://aclanthology.org/
This paper describes SimpleNER, a model developed for the sentence simplification task at GEM-2021. Our system is a monolingual Seq2Seq Transformer architecture that uses control tokens pre-pended to the data, allowing the model to shape the generate
We present the joint contribution of IST and Unbabel to the WMT 2021 Shared Task on Quality Estimation. Our team participated on two tasks: Direct Assessment and Post-Editing Effort, encompassing a total of 35 submissions. For all submissions, our ef
This paper presents Imperial College London's submissions to the WMT21 Quality Estimation (QE) Shared Task 3: Critical Error Detection. Our approach builds on cross-lingual pre-trained representations in a sequence classification model. We further im
In this paper, we present the joint contribution of Unbabel and IST to the WMT 2021 Metrics Shared Task. With this year's focus on Multidimensional Quality Metric (MQM) as the ground-truth human assessment, our aim was to steer COMET towards higher c
In this paper we describe our submissions to WAT-2021 (Nakazawa et al., 2021) for English-to-Myanmar language (Burmese) task. Our team, ID: YCC-MT1'', focused on bringing transliteration knowledge to the decoder without changing the model. We manuall