يلتقط التفضيلات التجريبية (SP) إلى ميل كلمة لإجراء كلمات أخرى بشكل صحيح لتكون في العلاقة النحوية المباشرة معها، وبالتالي تبلغنا عن تكوينات الكلمات الأساسية التي هي ذات معنى. لذلك SP هو مورد قيمة لأنظمة معالجة اللغة الطبيعية (NLP) ولتكل الأسلاك. تعتبر التعلم SP عموما بمثابة مهمة خاضعة للإشراف، لأنها تتطلب جثة محاطة كمصدر لأزواج الكلمات ذات الصلة بمجرد. في هذه الورقة نظهر أن التحليل التوزيعي البسيط يمكن أن يتعلم كمية جيدة من SP دون الحاجة إلى كائن مشروح. نحن نقوم بتوسيع تقنية تضمين الكلمة العامة مع ويندوز سياق كلمة الاتجاهات لإعطاء تمثيلات الكلمات التي تلتقط العلاقات التجميعية بشكل أفضل. نقوم باختبار مجموعة بيانات SP-10K وإظهار أن تضمين التضمين الجزيئي تتفوق على الأدوات النموذجية. نقوم أيضا بتقييم النسخة الخاضعة للإشراف من هذه المدينات وإظهار أن المدينات التجميعية غير الخاضعة للكشف يمكن أن تكون جيدة مثل المضبوطات الخاضعة للإشراف. نحن نوفر أيضا شفرة المصدر لتنفيذنا.
Selectional Preference (SP) captures the tendency of a word to semantically select other words to be in direct syntactic relation with it, and thus informs us about syntactic word configurations that are meaningful. Therefore SP is a valuable resource for Natural Language Processing (NLP) systems and for semanticists. Learning SP has generally been seen as a supervised task, because it requires a parsed corpus as a source of syntactically related word pairs. In this paper we show that simple distributional analysis can learn a good amount of SP without the need for an annotated corpus. We extend the general word embedding technique with directional word context windows giving word representations that better capture syntagmatic relations. We test on the SP-10K dataset and demonstrate that syntagmatic embeddings outperform the paradigmatic embeddings. We also evaluate supervised version of these embeddings and show that unsupervised syntagmatic embeddings can be as good as supervised embeddings. We also make available the source code of our implementation.
References used
https://aclanthology.org/
Generative adversarial networks (GANs) have succeeded in inducing cross-lingual word embeddings - maps of matching words across languages - without supervision. Despite these successes, GANs' performance for the difficult case of distant languages is
We present Query2Prod2Vec, a model that grounds lexical representations for product search in product embeddings: in our model, meaning is a mapping between words and a latent space of products in a digital shop. We leverage shopping sessions to lear
Weakly-supervised text classification aims to induce text classifiers from only a few user-provided seed words. The vast majority of previous work assumes high-quality seed words are given. However, the expert-annotated seed words are sometimes non-t
Word Embedding maps words to vectors of real numbers. It is derived from a large corpus and is known to capture semantic knowledge from the corpus. Word Embedding is a critical component of many state-of-the-art Deep Learning techniques. However, gen
Evaluating the quality of responses generated by open-domain conversation systems is a challenging task. This is partly because there can be multiple appropriate responses to a given dialogue history. Reference-based metrics that rely on comparisons