أحد التحديات الطويلة الأمد في الدلالات المعجمية يتكون في تعلم تمثيلات الكلمات التي تعكس خصائصها الدلالية. يشير النجاح الرائع لمشروع Word لهذا الغرض إلى أنه يمكن الحصول على تمثيلات عالية الجودة من خلال تلخيص سياقات الجملة الخاصة بذكر Word. في هذه الورقة، نقترح طريقة لتعلم تمثيلات الكلمات التي تتبع هذه الاستراتيجية الأساسية، ولكنها تختلف عن تضمين الكلمة القياسية بطريقتين مهمتين. أولا، نستفصل من نماذج اللغة السياقية (CLMS) بدلا من أكياس من مجاهد Word لتشفير السياقات. ثانيا، بدلا من تعلم كلمة متجه كلمة مباشرة، نستخدم نموذجا موضوعا لتقسيم السياقات التي تظهر الكلمات التي تظهر فيها الكلمات، ثم تعلم ناقلات موضوعية مختلفة لكل كلمة. أخيرا، نستخدم إشارة إشراف خاصة بمهام مهمة لإجراء مجموعة ناعمة من المتجهات الناتجة. نظرا لأن هذه الاستراتيجية البسيطة تؤدي إلى ناقلات Word عالية الجودة، والتي تعد أكثر تنبؤا بالخصائص الدلالية أكثر من Adgeddings والاستراتيجيات القائمة على CLM.
One of the long-standing challenges in lexical semantics consists in learning representations of words which reflect their semantic properties. The remarkable success of word embeddings for this purpose suggests that high-quality representations can be obtained by summarizing the sentence contexts of word mentions. In this paper, we propose a method for learning word representations that follows this basic strategy, but differs from standard word embeddings in two important ways. First, we take advantage of contextualized language models (CLMs) rather than bags of word vectors to encode contexts. Second, rather than learning a word vector directly, we use a topic model to partition the contexts in which words appear, and then learn different topic-specific vectors for each word. Finally, we use a task-specific supervision signal to make a soft selection of the resulting vectors. We show that this simple strategy leads to high-quality word vectors, which are more predictive of semantic properties than word embeddings and existing CLM-based strategies.
References used
https://aclanthology.org/
Models based on the transformer architecture, such as BERT, have marked a crucial step forward in the field of Natural Language Processing. Importantly, they allow the creation of word embeddings that capture important semantic information about word
In this study, we propose a self-supervised learning method that distils representations of word meaning in context from a pre-trained masked language model. Word representations are the basis for context-aware lexical semantics and unsupervised sema
One of the central aspects of contextualised language models is that they should be able to distinguish the meaning of lexically ambiguous words by their contexts. In this paper we investigate the extent to which the contextualised embeddings of word
Growing polarization of the news media has been blamed for fanning disagreement, controversy and even violence. Early identification of polarized topics is thus an urgent matter that can help mitigate conflict. However, accurate measurement of topic-
The success of large-scale contextual language models has attracted great interest in probing what is encoded in their representations. In this work, we consider a new question: to what extent contextual representations of concrete nouns are aligned