أدت إدخال مذكرات الكلمات المحول المستندة إلى المحولات المدربين مسبقا إلى تحسينات كبيرة في دقة المحللين المستندة إلى الرسم البياني للأطر مثل التبعيات العالمية (UD). ومع ذلك، يختلف الأمر السابق في الأبعاد المختلفة، بما في ذلك اختيارهم لنماذج اللغة المدربة مسبقا وما إذا كانوا يستخدمون طبقات LSTM. مع تهدف إلى تحرير آثار هذه الخيارات وتحديد بنية بسيطة ولكنها قابلة للتطبيق على نطاق واسع، نقدم خطوات، ومحلل التبعية المستندة إلى الرسم البياني المعياري الجديد. باستخدام خطوات، نقوم بإجراء سلسلة من التحليلات على OD Corpora من مجموعة متنوعة من اللغات. نجد أن اختيار المدينات المدربة مسبقا له كبير تأثير على أداء المحلل وتحديد XLM-R كخيار قوي عبر اللغات في دراستنا. لا توفر إضافة طبقات LSTM أي فوائد عند استخدام Embeddings القائمة على المحولات. قد يؤدي إعداد إعدادات التدريب متعددة المهام إلى إخراج ميزات UD إضافية. أخذ هذه الأفكار معا، نقترح بنية ومحزين بسيطة ولكنها قابلة للتطبيق على نطاق واسع، وتحقيق نتائج جديدة من من من بين الفنون (من حيث LAS) لمدة 10 لغات مختلفة.
The introduction of pre-trained transformer-based contextualized word embeddings has led to considerable improvements in the accuracy of graph-based parsers for frameworks such as Universal Dependencies (UD). However, previous works differ in various dimensions, including their choice of pre-trained language models and whether they use LSTM layers. With the aims of disentangling the effects of these choices and identifying a simple yet widely applicable architecture, we introduce STEPS, a new modular graph-based dependency parser. Using STEPS, we perform a series of analyses on the UD corpora of a diverse set of languages. We find that the choice of pre-trained embeddings has by far the greatest impact on parser performance and identify XLM-R as a robust choice across the languages in our study. Adding LSTM layers provides no benefits when using transformer-based embeddings. A multi-task training setup outputting additional UD features may contort results. Taking these insights together, we propose a simple but widely applicable parser architecture and configuration, achieving new state-of-the-art results (in terms of LAS) for 10 out of 12 diverse languages.
References used
https://aclanthology.org/
In the last few years, several methods have been proposed to build meta-embeddings. The general aim was to obtain new representations integrating complementary knowledge from different source pre-trained embeddings thereby improving their overall qua
Entity Linking (EL) systems have achieved impressive results on standard benchmarks mainly thanks to the contextualized representations provided by recent pretrained language models. However, such systems still require massive amounts of data -- mill
Dialogue summarization helps readers capture salient information from long conversations in meetings, interviews, and TV series. However, real-world dialogues pose a great challenge to current summarization models, as the dialogue length typically ex
The last years have shown rapid developments in the field of multimodal machine learning, combining e.g., vision, text or speech. In this position paper we explain how the field uses outdated definitions of multimodality that prove unfit for the mach
Natural Language Processing tools and resources have been so far mainly created and trained for standard varieties of language. Nowadays, with the use of large amounts of data gathered from social media, other varieties and registers need to be proce