التعبيرات الاصطلاحية المحتملة (الفطائر) غامضة بين التفسيرات الاصطلاحية غير المركزة والتفسيرات الحرفية الشفافة. على سبيل المثال، اضغط على الطريق "" يمكن أن يكون له معنى اصطلاحي يقابل بدء رحلة "أو لديك تفسير حرفي. في هذه الورقة، نقترح نموذجا للإشراف على أساس تضمينات السياق للتنبؤ بما إذا كانت تهدف الفطائر هي اصطلاحي أو حرفي. نحن نفكر في تجارب أحادية اللغة باللغتين الإنجليزية والروسية، وتظهر أن النموذج المقترح يتفوق على النهج السابقة، بما في ذلك في حالة اختبار النموذج على حالات أنواع فطيرة لم يلاحظ أثناء التدريب. ثم نفكر في تجارب عبر اللغات التي يتم فيها تدريب النموذج على حالات فطيرة بلغة أو الإنجليزية أو الروسية، واختبارها على اللغة الأخرى. نجد أن النموذج يتفوق على خطوط الأساس في هذا الإعداد. تشير هذه النتائج إلى أن المدينات السياقية قادرة على تعلم التمثيلات التي ترميز معرفة الاصطلاحية غير المقصورة على تعبيرات محددة، ولا لغة محددة.
Potentially idiomatic expressions (PIEs) are ambiguous between non-compositional idiomatic interpretations and transparent literal interpretations. For example, hit the road'' can have an idiomatic meaning corresponding to start a journey' or have a literal interpretation. In this paper we propose a supervised model based on contextualized embeddings for predicting whether usages of PIEs are idiomatic or literal. We consider monolingual experiments for English and Russian, and show that the proposed model outperforms previous approaches, including in the case that the model is tested on instances of PIE types that were not observed during training. We then consider cross-lingual experiments in which the model is trained on PIE instances in one language, English or Russian, and tested on the other language. We find that the model outperforms baselines in this setting. These findings suggest that contextualized embeddings are able to learn representations that encode knowledge of idiomaticity that is not restricted to specific expressions, nor to a specific language.
References used
https://aclanthology.org/
In this paper we analyze the extent to which contextualized sense embeddings, i.e., sense embeddings that are computed based on contextualized word embeddings, are transferable across languages.To this end, we compiled a unified cross-lingual benchma
We present machine learning classifiers to automatically identify COVID-19 misinformation on social media in three languages: English, Bulgarian, and Arabic. We compared 4 multitask learning models for this task and found that a model trained with En
We present a systematic study on multilingual and cross-lingual intent detection (ID) from spoken data. The study leverages a new resource put forth in this work, termed MInDS-14, a first training and evaluation resource for the ID task with spoken d
We propose a new approach for learning contextualised cross-lingual word embeddings based on a small parallel corpus (e.g. a few hundred sentence pairs). Our method obtains word embeddings via an LSTM encoder-decoder model that simultaneously transla
Recent literatures have shown that knowledge graph (KG) learning models are highly vulnerable to adversarial attacks. However, there is still a paucity of vulnerability analyses of cross-lingual entity alignment under adversarial attacks. This paper