في هذه الورقة، نقدم المهمة السامية الأولى على الغموض المتعددة اللغات والبلاية في السياق (MCL-WIC). تتيح هذه المهمة القدرة الكامنة التي تم التحقيق بها إلى حد كبير من القدرة المتأصلة إلى حد كبير في التمييز بين حواس الكلمات داخل وبصور اللغات المراد تقييمها، مما أدى إلى تقييم متطلبات جرد ذات معنى ثابت. مؤطرة كتصنيف ثنائي، مهمتنا مقسمة إلى جزأين. في المهمة الفرعية متعددة اللغات، يتعين على النظم المشاركة تحديد ما إذا كانت كلمتين مستهدفتين، كل منهما يحدث في سياق مختلف داخل نفس اللغة، معبرا عن نفس المعنى أم لا. بدلا من ذلك، في الجزء اللغوي، يطلب من النظم إجراء المهمة في سيناريو عبر اللغات، حيث يتم توفير الكلمات المستهدفة والسياقتين المقابلين بلغتين مختلفتين. نوضح مهمتنا، وكذلك بناء مجموعة بياناتنا التي أنشأنا يدويا بما في ذلك خمس لغات، وهي العربية والصينية والإنجليزية والفرنسية والروسية، ونتائج النظم المشاركة. مجموعات البيانات والنتائج متوفرة في: https://github.com/sapienzanlp/mcl-wic.
In this paper, we introduce the first SemEval task on Multilingual and Cross-Lingual Word-in-Context disambiguation (MCL-WiC). This task allows the largely under-investigated inherent ability of systems to discriminate between word senses within and across languages to be evaluated, dropping the requirement of a fixed sense inventory. Framed as a binary classification, our task is divided into two parts. In the multilingual sub-task, participating systems are required to determine whether two target words, each occurring in a different context within the same language, express the same meaning or not. Instead, in the cross-lingual part, systems are asked to perform the task in a cross-lingual scenario, in which the two target words and their corresponding contexts are provided in two different languages. We illustrate our task, as well as the construction of our manually-created dataset including five languages, namely Arabic, Chinese, English, French and Russian, and the results of the participating systems. Datasets and results are available at: https://github.com/SapienzaNLP/mcl-wic.
المراجع المستخدمة
https://aclanthology.org/
في هذا العمل، نقدم نهجنا لحل المهمة Semeval 2021 2: الغموض المتعددة اللغات والتبلغة في السياق (MCL-WIC). المهمة هي مشكلة تصنيف زوج الجملة حيث يكون الهدف هو اكتشاف ما إذا كانت كلمة معينة مشتركة بين كل من الجمل تثير نفس المعنى. نقدم أنظمة لكلا الإعدادا
تقدم هذه الورقة نظام الغموض في السياق.تركز المهمة على التقاط الطبيعة Polysemous للكلمات في بيئة متعددة اللغات واللغة اللغوية، دون النظر في جرد صارم من معاني الكلمات.يطبق النظام خوارزميات معالجة اللغة الطبيعية على مجموعات البيانات من مهمة Semeval 2021
نقوم بتجربة XLM Roberta for Word في سياق الغموض في الإعداد اللغوي متعدد اللغات والصليب لتطوير نموذج واحد لديه معرفة حول كلا الإعدادات.نحل المشكلة كمشكلة تصنيف ثنائية وكذلك تجربة تكبير البيانات وتقنيات التدريب الخصم.بالإضافة إلى ذلك، نقوم أيضا بتجربة
في هذه الورقة، نقدم نظامنا الذي شاركناه في مهمة Semeval Semeval Semeval Semeval 2021. في تجاربنا، حققنا في إمكانية استخدام نظام غموض من معنى الكلام من الكلمات الدقيقة التي تم تدريبها على البيانات المشروحة ذات الإحساس باللغة الإنجليزية ورسم تنبؤات على
تحديد ما إذا كانت الكلمة تحمل نفس المعنى أو المعنى المختلف في سياقتين هي منطقة بحثية مهمة في معالجة اللغة الطبيعية تلعب دورا مهما في العديد من التطبيقات مثل الإجابة على الأسئلة، وملخص الوثائق، واسترجاع المعلومات واستخراج المعلومات واستخراج المعلومات.