تقدم هذه الورقة مساعينا لحل المهام 11، NLPContribeGraph، Semeval-2021. كان الغرض من المهمة استخراج ثلاث مرات من ورقة في مجال معالجة لغة الطبيعة لإنشاء رسم بياني لمعرفة بحث مفتوح. تتضمن المهمة ثلاثة مهام فرعية: اكتشاف أحكام المساهمة في الأوراق وتحديد العبارات العلمية والعبارات المسندة من أحكام المساهمة؛ واستنتاج ثلاث مرات في شكل (الموضوع، المسند، كائن) كبيانات لبناء الرسم البياني المعرفة. في هذه الورقة، نطبق مجموعة من مختلف نماذج اللغة المدربة مسبقا بشكل جيد (PLM) للمهام واحدة واثنين. بالإضافة إلى ذلك، يتم اعتماد أساليب التدريب الذاتي لمعالجة النقص في البيانات المشروح. للمهمة الثالثة، بدلا من استخدام هياكل استخراج المعلومات المفتوحة الكلاسيكية (OIE) الكلاسيكية، فإننا نولد ثلاث مرات محتملة عبر القواعد المصممة يدويا وتطوير مصنف ثنائي للتمييز بين الآخرين من الآخرين. تظهر النتائج الكمية أننا نحصل على المرتبة الرابعة والثانية والثانية في ثلاث مراحل تقييم.
This paper presents our endeavor for solving task11, NLPContributionGraph, of SemEval-2021. The purpose of the task was to extract triples from a paper in the Nature Language Processing field for constructing an Open Research Knowledge Graph. The task includes three sub-tasks: detecting the contribution sentences in papers, identifying scientific terms and predicate phrases from the contribution sentences; and inferring triples in the form of (subject, predicate, object) as statements for Knowledge Graph building. In this paper, we apply an ensemble of various fine-tuned pre-trained language models (PLM) for tasks one and two. In addition, self-training methods are adopted for tackling the shortage of annotated data. For the third task, rather than using classic neural open information extraction (OIE) architectures, we generate potential triples via manually designed rules and develop a binary classifier to differentiate positive ones from others. The quantitative results show that we obtain the 4th, 2nd, and 2nd rank in three evaluation phases.
References used
https://aclanthology.org/
This paper describes the winning system in the End-to-end Pipeline phase for the NLPContributionGraph task. The system is composed of three BERT-based models and the three models are used to extract sentences, entities and triples respectively. Exper
This paper describes the Duluth system that participated in SemEval-2021 Task 11, NLP Contribution Graph. It details the extraction of contribution sentences and scientific entities and their relations from scholarly articles in the domain of Natural
Research in Natural Language Processing is making rapid advances, resulting in the publication of a large number of research papers. Finding relevant research papers and their contribution to the domain is a challenging problem. In this paper, we add
We propose a cascade of neural models that performs sentence classification, phrase recognition, and triple extraction to automatically structure the scholarly contributions of NLP publications. To identify the most important contribution sentences i
In this technical report, we describe the fine-tuned ASR-MT pipeline used for the IWSLT shared task. We remove less useful speech samples by checking WER with an ASR model, and further train a wav2vec and Transformers-based ASR module based on the fi