نقدم مساهمة التاباس في المهمة المشتركة بشأن التحقق من البيان وإيجاد الأدلة مع الجداول (مهمة Semeval 2021 9، وانغ وآخرون (2021)). مهمة SEM Tab Factor Task A هي مهمة التصنيف بالاعتراف إذا تم إيصال بيان أو محايد أو دحض بمحتوى جدول معين. نعتمد نموذج تاباس ثنائي من Eisenschlos et al. (2020) لهذه المهمة. نحن نتعلم نماذج تصنيف ثنائية: نموذج أول للتنبؤ إذا كان عبارة محايدة أو غير محايدة وثانية واحدة للتنبؤ إذا كانت مستلمة أو دحض. نظرا لأن مجموعة التدريب المهمة المشتركة تحتوي فقط على أمثلة مستلمة أو دحض، فإننا نولد أمثلة محايدة اصطناعية لتدريب النموذج الأول. يتم تدريب كلا النموذجين مسبقا باستخدام بيانات Masklm موضوعية ومكافحة موظفة واصطناعية (Eisenschlos et al.، 2020) و Tabact (Chen et al.، 2020)، مجموعة بيانات استيابية طاولة كبيرة. نجد أن الأمثلة المحايدة الاصطناعية فعالة إلى حد ما في تدريب النموذج الأول، وتحقيق 68.03 اختبار F1 مقابل 60.47 من خط الأساس الأغلبية. في المرحلة الثانية، نجد أن التدريب المسبق على البيانات الوسيطة وتطويط التحمل يحسن النتائج عبر Masklm قبل التدريب (68.03 مقابل 57.01).
We present the TAPAS contribution to the Shared Task on Statement Verification and Evidence Finding with Tables (SemEval 2021 Task 9, Wang et al. (2021)). SEM TAB FACT Task A is a classification task of recognizing if a statement is entailed, neutral or refuted by the content of a given table. We adopt the binary TAPAS model of Eisenschlos et al. (2020) to this task. We learn two binary classification models: A first model to predict if a statement is neutral or non-neutral and a second one to predict if it is entailed or refuted. As the shared task training set contains only entailed or refuted examples, we generate artificial neutral examples to train the first model. Both models are pre-trained using a MASKLM objective, intermediate counter-factual and synthetic data (Eisenschlos et al., 2020) and TABFACT (Chen et al., 2020), a large table entailment dataset. We find that the artificial neutral examples are somewhat effective at training the first model, achieving 68.03 test F1 versus the 60.47 of a majority baseline. For the second stage, we find that the pre-training on the intermediate data and TABFACT improves the results over MASKLM pre-training (68.03 vs 57.01).
References used
https://aclanthology.org/
Tables are widely used in various kinds of documents to present information concisely. Understanding tables is a challenging problem that requires an understanding of language and table structure, along with numerical and logical reasoning. In this p
This paper describes the system submitted in the SemEval-2021 Statement Verification and Evidence Finding with Tables task. The system relies on candidate generation for logical forms on the table based on keyword matching and dependency parsing on the claim statements.
Recently, there has been an interest in the research on factual verification and prediction over structured data like tables and graphs. To circumvent any false news incident, it is necessary to not only model and predict over structured data efficie
This paper describes our approach for Task 9 of SemEval 2021: Statement Verification and Evidence Finding with Tables. We participated in both subtasks, namely statement verification and evidence finding. For the subtask of statement verification, we
Current NLP models are predominantly trained through a two-stage pre-train then fine-tune'' pipeline. Prior work has shown that inserting an intermediate pre-training stage, using heuristic masking policies for masked language modeling (MLM), can sig