ربط الكيان مشكلة مهمة في العديد من التطبيقات. تم تصميم معظم الحلول السابقة للإعدادات حيث تتوفر بيانات التدريب المشروح، ومع ذلك، ليس الحال في العديد من المجالات. نقترح طريقة ربط كيان خفيف الوزن وقابل للتطوير، وهي eigenthemes، والتي تعتمد فقط على توافر أسماء الكيان وقاعدة المعرفة المرجعية. يميل Eigenthemes إلى حقيقة أن الكيانات المذكورة حقا في وثيقة (الكيانات الذهبية ") تميل إلى تشكيل مجموعة فرعية كثيفة من مجموعة جميع الكيانات المرشحة في الوثيقة. تحدث هندسية، عند تمثيل الكيانات كمتجهات عن طريق بعض التضمين، تميل الكيانات الذهبية إلى الاستلقاء في مساحة فرعية منخفضة الرتب من مساحة التضمين الكامل. يحدد eigenthemes هذه الفورية الفرعية باستخدام تحلل القيمة المفرد والكيانات المرشحة وفقا لقربها من الفضاء الفرعي. على الجبهة التجريبية، نقدم خطوط خطوط خطوط أخرى قوية تقارن بشكل إيجابي (وأحيانا تفوقت) الحالة الحالية للفن. تجارب واسعة النطاق على مجموعات البيانات القياسية من مجموعة متنوعة من مجالات العالم الحقيقي تعرض فعالية نهجنا.
Entity linking is an important problem with many applications. Most previous solutions were designed for settings where annotated training data is available, which is, however, not the case in numerous domains. We propose a light-weight and scalable entity linking method, Eigenthemes, that relies solely on the availability of entity names and a referent knowledge base. Eigenthemes exploits the fact that the entities that are truly mentioned in a document (the gold entities'') tend to form a semantically dense subset of the set of all candidate entities in the document. Geometrically speaking, when representing entities as vectors via some given embedding, the gold entities tend to lie in a low-rank subspace of the full embedding space. Eigenthemes identifies this subspace using the singular value decomposition and scores candidate entities according to their proximity to the subspace. On the empirical front, we introduce multiple strong baselines that compare favorably to (and sometimes even outperform) the existing state of the art. Extensive experiments on benchmark datasets from a variety of real-world domains showcase the effectiveness of our approach.
References used
https://aclanthology.org/
Entity Linking (EL) systems have achieved impressive results on standard benchmarks mainly thanks to the contextualized representations provided by recent pretrained language models. However, such systems still require massive amounts of data -- mill
Unsupervised consistency training is a way of semi-supervised learning that encourages consistency in model predictions between the original and augmented data. For Named Entity Recognition (NER), existing approaches augment the input sequence with t
One of the challenges in information retrieval (IR) is the vocabulary mismatch problem, which happens when the terms between queries and documents are lexically different but semantically similar. While recent work has proposed to expand the queries
In this paper, we present the systems submitted by our team from the Institute of ICT (HEIG-VD / HES-SO) to the Unsupervised MT and Very Low Resource Supervised MT task. We first study the improvements brought to a baseline system by techniques such
We present the findings of the WMT2021 Shared Tasks in Unsupervised MT and Very Low Resource Supervised MT. Within the task, the community studied very low resource translation between German and Upper Sorbian, unsupervised translation between German