تتطلب تضمين الوثائق الحالية شركة تدريبية كبيرة ولكنها تفشل في تعلم تمثيلات عالية الجودة عند مواجهة عدد صغير من المستندات الخاصة بالمجال والشروط النادرة. علاوة على ذلك، يقومون بتحويل كل وثيقة إلى متجه تضمين واحد، مما يجعل من الصعب التقاط مفاهيم مختلفة من تشابه الوثيقة أو شرح سبب اعتبار المستندين مماثلة. في هذا العمل، نقترح تشفير المجال الأوجه لدينا، ونهج رواية لتعلم Admeddings متعددة الأوجه للمستندات الخاصة بالمجال. يعتمد ذلك على بنية شبكة عصبية سيامي ويعزز الرسوم البيانية المعرفة لتعزيز المدينات حتى لو كانت بعض عينات التدريب فقط متوفرة. يحدد النموذج أنواعا مختلفة من معرفة المجال وترميزها في أبعاد منفصلة من التضمين، مما يتيح طرق متعددة لإيجاد ومقارنة المستندات ذات الصلة في مساحة المتجهات. نقيم نهجنا على مجموعة بيانات قياسية وتجد أنه يحقق نفس جودة التضمين كطرازات حديثة بينما تتطلب سوى جزء صغير من بيانات التدريب الخاصة بهم فقط. تتوفر تجريبي تفاعلي ومجموعاتنا المصدر ومجموعات بيانات التقييم عبر الإنترنت: https://hpi.de/naumann/s/multifaceted-emberdings و screencast متاح على Youtube: https://youtu.be/hhcsx2clewg
Current document embeddings require large training corpora but fail to learn high-quality representations when confronted with a small number of domain-specific documents and rare terms. Further, they transform each document into a single embedding vector, making it hard to capture different notions of document similarity or explain why two documents are considered similar. In this work, we propose our Faceted Domain Encoder, a novel approach to learn multifaceted embeddings for domain-specific documents. It is based on a Siamese neural network architecture and leverages knowledge graphs to further enhance the embeddings even if only a few training samples are available. The model identifies different types of domain knowledge and encodes them into separate dimensions of the embedding, thereby enabling multiple ways of finding and comparing related documents in the vector space. We evaluate our approach on two benchmark datasets and find that it achieves the same embedding quality as state-of-the-art models while requiring only a tiny fraction of their training data. An interactive demo, our source code, and the evaluation datasets are available online: https://hpi.de/naumann/s/multifaceted-embeddings and a screencast is available on YouTube: https://youtu.be/HHcsX2clEwg
References used
https://aclanthology.org/
Information overload has been one of the challenges regarding information from the Internet. It is not a matter of information access, instead, the focus had shifted towards the quality of the retrieved data. Particularly in the news domain, multiple
A crucial difference between single- and multi-document summarization is how salient content manifests itself in the document(s). While such content may appear at the beginning of a single document, essential information is frequently reiterated in a
Presentations are critical for communication in all areas of our lives, yet the creation of slide decks is often tedious and time-consuming. There has been limited research aiming to automate the document-to-slides generation process and all face a c
In the paper, we deal with the problem of unsupervised text document clustering for the Polish language. Our goal is to compare the modern approaches based on language modeling (doc2vec and BERT) with the classical ones, i.e., TF-IDF and wordnet-base
Document-level neural machine translation (NMT) has proven to be of profound value for its effectiveness on capturing contextual information. Nevertheless, existing approaches 1) simply introduce the representations of context sentences without expli