التعبيرات الاصطلاحية المحتملة (الفطائر) غامضة بين التفسيرات الاصطلاحية غير المركزة والتفسيرات الحرفية الشفافة. على سبيل المثال، اضغط على الطريق "" يمكن أن يكون له معنى اصطلاحي يقابل بدء رحلة "أو لديك تفسير حرفي. في هذه الورقة، نقترح نموذجا للإشراف على أساس تضمينات السياق للتنبؤ بما إذا كانت تهدف الفطائر هي اصطلاحي أو حرفي. نحن نفكر في تجارب أحادية اللغة باللغتين الإنجليزية والروسية، وتظهر أن النموذج المقترح يتفوق على النهج السابقة، بما في ذلك في حالة اختبار النموذج على حالات أنواع فطيرة لم يلاحظ أثناء التدريب. ثم نفكر في تجارب عبر اللغات التي يتم فيها تدريب النموذج على حالات فطيرة بلغة أو الإنجليزية أو الروسية، واختبارها على اللغة الأخرى. نجد أن النموذج يتفوق على خطوط الأساس في هذا الإعداد. تشير هذه النتائج إلى أن المدينات السياقية قادرة على تعلم التمثيلات التي ترميز معرفة الاصطلاحية غير المقصورة على تعبيرات محددة، ولا لغة محددة.
Potentially idiomatic expressions (PIEs) are ambiguous between non-compositional idiomatic interpretations and transparent literal interpretations. For example, hit the road'' can have an idiomatic meaning corresponding to start a journey' or have a literal interpretation. In this paper we propose a supervised model based on contextualized embeddings for predicting whether usages of PIEs are idiomatic or literal. We consider monolingual experiments for English and Russian, and show that the proposed model outperforms previous approaches, including in the case that the model is tested on instances of PIE types that were not observed during training. We then consider cross-lingual experiments in which the model is trained on PIE instances in one language, English or Russian, and tested on the other language. We find that the model outperforms baselines in this setting. These findings suggest that contextualized embeddings are able to learn representations that encode knowledge of idiomaticity that is not restricted to specific expressions, nor to a specific language.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نقوم بتحليل المدى الذي يتطلع إليه المعنى السياقي، أي شعور بمعنى تم حسابه على أساس مدمج الكلمات السياقية، قابلة للتحويل عبر اللغات. في هذه الغاية، جمعنا معيارا موحدا عبر اللغات ل Disambiguation Sense.بعد ذلك نقترح استراتيجيتين بسيطة لنق
نقدم مصنفات التعلم الآلية لتحديد المعلومات الخاطئة COVID-19 تلقائيا على وسائل التواصل الاجتماعي بثلاث لغات: الإنجليزية، البلغارية، والعربية.قمنا بمقارنة 4 نماذج تعليمية متعددة الأيتاكف لهذه المهمة ووجدت أن نموذج مدرب مع بيرت الإنجليزية يحقق أفضل النت
نقدم دراسة منهجية حول الكشف عن النية متعددة اللغات والتبلغة من البيانات المنطوقة.تنفد الدراسة على أن مورد جديد تم طرحه في هذا العمل، الذي يطلق عليه عقول -14، وهو موارد تدريب وتقييم أول مهمة معرف مع البيانات المنطوقة.ويغطي 14 حداثة مستخرجة من نظام تجا
نقترح نهجا جديدا لتعلم تضمين الكلمات المتبادلة عبر السياق بناء على كائن مواز صغير (E.G. بضع مئات من أزواج الجملة). تتمتع طريقتنا بدمج الكلمات عبر نموذج فك تشفير LSTM يترجم في وقت واحد وإعادة بناء جملة مدخلات. من خلال تقاسم المعلمات النموذجية بين لغات
لقد أظهرت الأدوات الحديثة الأخيرة أن نماذج تعلم الرسم البياني المعرفي (KG) عرضة للغاية للهجمات الخصومة.ومع ذلك، لا تزال هناك ندرة من تحليلات الضعف لمحاذاة الكيان المتبادلة تحت هجمات الخصومة.تقترح هذه الورقة نموذج هجوم مخدر مع تقنيات هجومين جديدة لإشر