مجردة لأنظمة معالجة اللغات الطبيعية، وهي نوعين من الأدلة تدعم استخدام تمثيلات نصية من نماذج اللغة العصبية المحددة "على الفوروريا غير المخلفات الكبيرة: الأداء على معايير مستوحاة من التطبيقات (بيترز وآخرون، 2018، في جملة أمور أخرى)، والظهور من التجريدات النحوية في تلك التمثيلات (Tenney et al.، 2019، في جملة أمور أخرى). من ناحية أخرى، فإن الافتقار إلى الإشراف الأساسي يدعو إلى المسائل مدى جودة هذه التمثيلات يمكن أن تلتقط المعنى (Bender and Koller، 2020). نحن نطبق تحقيقات جديدة إلى نماذج اللغة الأخيرة --- التركيز على وجه التحديد على هيكل الوسائد المسند على النحو الذي يتعرض عليه التبعيات الدلالية (إيفانوفا وآخرون، 2012) --- وإيجاد ذلك، على عكس بناء الجملة، لا يتم إحضار الدلالات إلى السطح من قبل اليوم نماذج مسبقا. بعد ذلك، نستخدم تشفير الرسومات التنافيلية لتشمل صراحة على التقييم الدلالي في الفوائد الخاصة بمهام المهام، وتحقيق فوائد العائد لمهام فهم اللغة الطبيعية (NLU) في معيار الغراء. يوضح هذا النهج إمكانية الإشراف اللغوي للأغراض العامة (بدلا من المهام الخاصة)، أعلاه وما يتجاوز الاحتجاج والتأمل التقليدي. تساعد العديد من التشخيص في توطين فوائد نهجنا
Abstract For natural language processing systems, two kinds of evidence support the use of text representations from neural language models pretrained'' on large unannotated corpora: performance on application-inspired benchmarks (Peters et al., 2018, inter alia), and the emergence of syntactic abstractions in those representations (Tenney et al., 2019, inter alia). On the other hand, the lack of grounded supervision calls into question how well these representations can ever capture meaning (Bender and Koller, 2020). We apply novel probes to recent language models--- specifically focusing on predicate-argument structure as operationalized by semantic dependencies (Ivanova et al., 2012)---and find that, unlike syntax, semantics is not brought to the surface by today's pretrained models. We then use convolutional graph encoders to explicitly incorporate semantic parses into task-specific finetuning, yielding benefits to natural language understanding (NLU) tasks in the GLUE benchmark. This approach demonstrates the potential for general-purpose (rather than task-specific) linguistic supervision, above and beyond conventional pretraining and finetuning. Several diagnostics help to localize the benefits of our approach.1
References used
https://aclanthology.org/
We propose pre-finetuning, an additional large-scale learning stage between language model pre-training and fine-tuning. Pre-finetuning is massively multi-task learning (around 50 datasets, over 4.8 million total labeled examples), and is designed to
This paper details experiments we performed on the Universal Dependencies 2.7 corpora in order to investigate the dominant word order in the available languages. For this purpose, we used a graph rewriting tool, GREW, which allowed us to go beyond th
Fully understanding narratives often requires identifying events in the context of whole documents and modeling the event relations. However, document-level event extraction is a challenging task as it requires the extraction of event and entity core
Text variational autoencoders (VAEs) are notorious for posterior collapse, a phenomenon where the model's decoder learns to ignore signals from the encoder. Because posterior collapse is known to be exacerbated by expressive decoders, Transformers ha
Video Question Answering (VidQA) evaluation metrics have been limited to a single-word answer or selecting a phrase from a fixed set of phrases. These metrics limit the VidQA models' application scenario. In this work, we leverage semantic roles deri