توفر التفاعلات بين الكيانات في الرسم البياني للمعرفة (KG) معرفة غنية لتعلم تمثيل اللغة. ومع ذلك، تركز نماذج اللغة المحددة على المعرفة المعزوفة المعرفة الحالية (PLMS) فقط على معلومات الكيان وتجاهل العلاقات الجميلة بين الكيانات. في هذا العمل، نقترح دمج كجم (بما في ذلك كلا من الكيانات والعلاقات) في عملية التعلم اللغوي للحصول على نموذج اللغة المحسنة KG، وهي KLMO. على وجه التحديد، تم تصميم مجمع المعرفة الرواية للنموذج صراحة التفاعل بين الكيان يمتد في النص وجميع الكيانات والعلاقات في كجم سياقي. يتم استخدام هدف تنبؤ العلاقة لدمج معلومات العلاقة من خلال الإشراف البعيد. يتم استخدام هدف ربط الكيان بشكل أكبر لربط كيان يمتد في نص إلى كيانات في كجم. وبهذه الطريقة، يمكن دمج المعرفة المهيكلة بشكل فعال في تمثيلات اللغة. توضح النتائج التجريبية أن KLMO يحقق تحسينات كبيرة على العديد من المهام التي يحركها المعرفة، مثل تصنيف الكيانات وتصنيف العلاقة، مقارنة مع PLMs المعرفة المعززة للحكومة.
Interactions between entities in knowledge graph (KG) provide rich knowledge for language representation learning. However, existing knowledge-enhanced pretrained language models (PLMs) only focus on entity information and ignore the fine-grained relationships between entities. In this work, we propose to incorporate KG (including both entities and relations) into the language learning process to obtain KG-enhanced pretrained Language Model, namely KLMo. Specifically, a novel knowledge aggregator is designed to explicitly model the interaction between entity spans in text and all entities and relations in a contextual KG. An relation prediction objective is utilized to incorporate relation information by distant supervision. An entity linking objective is further utilized to link entity spans in text to entities in KG. In this way, the structured knowledge can be effectively integrated into language representations. Experimental results demonstrate that KLMo achieves great improvements on several knowledge-driven tasks, such as entity typing and relation classification, comparing with the state-of-the-art knowledge-enhanced PLMs.
References used
https://aclanthology.org/
To obtain high-quality sentence embeddings from pretrained language models (PLMs), they must either be augmented with additional pretraining objectives or finetuned on a large set of labeled text pairs. While the latter approach typically outperforms
Paraphrase generation has benefited extensively from recent progress in the designing of training objectives and model architectures. However, previous explorations have largely focused on supervised methods, which require a large amount of labeled d
Taxonomies are symbolic representations of hierarchical relationships between terms or entities. While taxonomies are useful in broad applications, manually updating or maintaining them is labor-intensive and difficult to scale in practice. Conventio
In this paper we present a system that exploits different pre-trained Language Models for assigning domain labels to WordNet synsets without any kind of supervision. Furthermore, the system is not restricted to use a particular set of domain labels.
Prior work on Data-To-Text Generation, the task of converting knowledge graph (KG) triples into natural text, focused on domain-specific benchmark datasets. In this paper, however, we verbalize the entire English Wikidata KG, and discuss the unique c