نقدم مساهمتنا في المهمة المشتركة IWPT 2021 بشأن التحليل في التبعيات العالمية المعززة. مكون النظام الرئيسي الخاص بنا هو محلل خرطوم من أشجار الشجرة الهجين التي تدمج (أ) تنبؤات تمتد الأشجار الرسوم البيانية المحسنة مع (ب) حواف بياني إضافية غير موجودة في الأشجار الممتدة. نحن أيضا اعتماد استراتيجية Finetuning حيث نركن أولا محيطا عاما لغة على تسلسل البيانات من جميع اللغات المتاحة، ثم، في خطوة ثانية، Finetune على كل لغة فردية بشكل منفصل. بالإضافة إلى ذلك، نطور مجموعة كاملة من الوحدات الكاملة الخاصة بنا ذات الصلة بالمهمة المشتركة، بما في ذلك التكفيق، تجزئة الجملة، والتوسع الرمز المميز متعدد الكلمات، استنادا إلى نماذج XLM-R المدربة مسبقا ولغة ما قبل التدريب على مستوى الشخصية عارضات ازياء. يوصل تقديمنا إلى ELAS في المتوسط الكلي 89.24 في مجموعة الاختبار. تحتل المرتبة الأولى بين جميع الفرق، مع وجود هامش أكثر من 2 إيلاس المطلق عبر التقديم الأفضل الأداء الأفضل، وأفضل درجة في 16 من أصل 17 لغة.
We present our contribution to the IWPT 2021 shared task on parsing into enhanced Universal Dependencies. Our main system component is a hybrid tree-graph parser that integrates (a) predictions of spanning trees for the enhanced graphs with (b) additional graph edges not present in the spanning trees. We also adopt a finetuning strategy where we first train a language-generic parser on the concatenation of data from all available languages, and then, in a second step, finetune on each individual language separately. Additionally, we develop our own complete set of pre-processing modules relevant to the shared task, including tokenization, sentence segmentation, and multiword token expansion, based on pre-trained XLM-R models and our own pre-training of character-level language models. Our submission reaches a macro-average ELAS of 89.24 on the test set. It ranks top among all teams, with a margin of more than 2 absolute ELAS over the next best-performing submission, and best score on 16 out of 17 languages.
References used
https://aclanthology.org/
Coupled with biaffine decoders, transformers have been effectively adapted to text-to-graph transduction and achieved state-of-the-art performance on AMR parsing. Many prior works, however, rely on the biaffine decoder for either or both arc and labe
Knowledge graphs suffer from sparsity which degrades the quality of representations generated by various methods. While there is an abundance of textual information throughout the web and many existing knowledge bases, aligning information across the
Abstract For natural language processing systems, two kinds of evidence support the use of text representations from neural language models pretrained'' on large unannotated corpora: performance on application-inspired benchmarks (Peters et al., 2018
We describe the NUIG solution for IWPT 2021 Shared Task of Enhanced Dependency (ED) parsing in multiple languages. For this shared task, we propose and evaluate an End-to-end Seq2seq mBERT-based ED parser which predicts the ED-parse tree of a given i
Recent QA with logical reasoning questions requires passage-level relations among the sentences. However, current approaches still focus on sentence-level relations interacting among tokens. In this work, we explore aggregating passage-level clues fo