على الرغم من أن الأبحاث حول Word Advedings قد حققت تقدما كبيرا في السنوات الأخيرة، فإن العديد من المهام في معالجة اللغة الطبيعية موجودة على مستوى الجملة. وبالتالي، من الضروري تعلم تضمين الجملة. في الآونة الأخيرة، يقترح عقوبة برت (SBERT) تعلم التشريح على مستوى الجملة، ويستخدم المنتج الداخلي (أو، التشابه الجيبكي) لحساب التشابه الدلالي بين الجمل. ومع ذلك، لا يمكن لهذا القياس وصف الهياكل الدلالية بين الجمل. السبب هو أن الجمل قد تكمن في مشعب في الفضاء المحيط بدلا من توزيع الفضاء الإقليدي. وبالتالي، فإن التشابه التجميل لا يمكن أن تقريب المسافات على المنوع. لمعالجة المشكلة الشديدة، نقترح طريقة تضمين عقوبة جديدة تسمى برت حكم مع الحفاظ على محلية (SBERT-LP)، والتي تكتشف الجملة الفرعية من الفضاء العالي الأبعاد ويمنح مجموعة فرعية تمثيل جملة مدمجة من قبل الهياكل الهندسية المحفوظة محليا من الجمل وبعد قارننا Sbert-LP مع العديد من نهج تضمين الجملة الحالية من ثلاثة وجهات نظر: تشابه الجملة، تصنيف الجملة وتجميع الجملة. تظهر النتائج التجريبية ودراسات الحالة أن طريقتنا ترميز الجمل بشكل أفضل بمعنى الهياكل الدلالية.
Although researches on word embeddings have made great progress in recent years, many tasks in natural language processing are on the sentence level. Thus, it is essential to learn sentence embeddings. Recently, Sentence BERT (SBERT) is proposed to learn embeddings on the sentence level, and it uses the inner product (or, cosine similarity) to compute semantic similarity between sentences. However, this measurement cannot well describe the semantic structures among sentences. The reason is that sentences may lie on a manifold in the ambient space rather than distribute in an Euclidean space. Thus, cosine similarity cannot approximate distances on the manifold. To tackle the severe problem, we propose a novel sentence embedding method called Sentence BERT with Locality Preserving (SBERT-LP), which discovers the sentence submanifold from a high-dimensional space and yields a compact sentence representation subspace by locally preserving geometric structures of sentences. We compare the SBERT-LP with several existing sentence embedding approaches from three perspectives: sentence similarity, sentence classification and sentence clustering. Experimental results and case studies demonstrate that our method encodes sentences better in the sense of semantic structures.
References used
https://aclanthology.org/
A private learning scheme TextHide was recently proposed to protect the private text data during the training phase via so-called instance encoding. We propose a novel reconstruction attack to break TextHide by recovering the private training data, a
Automatic news recommendation has gained much attention from the academic community and industry. Recent studies reveal that the key to this task lies within the effective representation learning of both news and users. Existing works typically encod
Transformer models are permutation equivariant. To supply the order and type information of the input tokens, position and segment embeddings are usually added to the input. Recent works proposed variations of positional encodings with relative posit
This paper describes N-XKT (Neural encoding based on eXplanatory Knowledge Transfer), a novel method for the automatic transfer of explanatory knowledge through neural encoding mechanisms. We demonstrate that N-XKT is able to improve accuracy and gen
It has been widely recognized that syntax information can help end-to-end neural machine translation (NMT) systems to achieve better translation. In order to integrate dependency information into Transformer based NMT, existing approaches either expl