في هذا العمل، نقدم نهجنا لحل المهمة Semeval 2021 2: الغموض المتعددة اللغات والتبلغة في السياق (MCL-WIC). المهمة هي مشكلة تصنيف زوج الجملة حيث يكون الهدف هو اكتشاف ما إذا كانت كلمة معينة مشتركة بين كل من الجمل تثير نفس المعنى. نقدم أنظمة لكلا الإعدادات - متعددة اللغات (جمل الزوج تنتمي إلى نفس اللغة) واللغة اللغوية (جمل الزوج تنتمي إلى لغات مختلفة). يتم توفير بيانات التدريب باللغة الإنجليزية فقط. وبالتالي، فإننا نوظف تقنيات النقل عبر اللغات. توظف نهجنا نماذج اللغة القائمة على المحولات التي تم تدريبها مسبقا، مثل Electra و Albert، للمهمة الإنجليزية و XLM-R لجميع المهام الأخرى. لتحسين أداء هذه الأنظمة، نقترح إضافة إشارة إلى الكلمة التي سيتم إزالتها وتزيد بياناتنا عن طريق انعكاس زوج الجملة. ونحن كذلك زيادة DataSet المقدمة إلينا مع WIC و XL-WIC و SEMCOR 3.0. باستخدام الكفر، نحقق أداء قويا في المهمة المتعددة اللغات، حيث وضعت أولا في المهام الفرعية EN-EN و FR-FR. بالنسبة للإعداد المتبادل، فإننا أعملنا بترجمة طرق اختبار وطريقة طلقة صفرية، باستخدام نماذجنا متعددة اللغات، مع الأداء الأخير بشكل أفضل قليلا.
In this work, we present our approach for solving the SemEval 2021 Task 2: Multilingual and Cross-lingual Word-in-Context Disambiguation (MCL-WiC). The task is a sentence pair classification problem where the goal is to detect whether a given word common to both the sentences evokes the same meaning. We submit systems for both the settings - Multilingual (the pair's sentences belong to the same language) and Cross-Lingual (the pair's sentences belong to different languages). The training data is provided only in English. Consequently, we employ cross-lingual transfer techniques. Our approach employs fine-tuning pre-trained transformer-based language models, like ELECTRA and ALBERT, for the English task and XLM-R for all other tasks. To improve these systems' performance, we propose adding a signal to the word to be disambiguated and augmenting our data by sentence pair reversal. We further augment the dataset provided to us with WiC, XL-WiC and SemCor 3.0. Using ensembles, we achieve strong performance in the Multilingual task, placing first in the EN-EN and FR-FR sub-tasks. For the Cross-Lingual setting, we employed translate-test methods and a zero-shot method, using our multilingual models, with the latter performing slightly better.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نقدم المهمة السامية الأولى على الغموض المتعددة اللغات والبلاية في السياق (MCL-WIC). تتيح هذه المهمة القدرة الكامنة التي تم التحقيق بها إلى حد كبير من القدرة المتأصلة إلى حد كبير في التمييز بين حواس الكلمات داخل وبصور اللغات المراد تقيي
تقدم هذه الورقة نظام الغموض في السياق.تركز المهمة على التقاط الطبيعة Polysemous للكلمات في بيئة متعددة اللغات واللغة اللغوية، دون النظر في جرد صارم من معاني الكلمات.يطبق النظام خوارزميات معالجة اللغة الطبيعية على مجموعات البيانات من مهمة Semeval 2021
نقوم بتجربة XLM Roberta for Word في سياق الغموض في الإعداد اللغوي متعدد اللغات والصليب لتطوير نموذج واحد لديه معرفة حول كلا الإعدادات.نحل المشكلة كمشكلة تصنيف ثنائية وكذلك تجربة تكبير البيانات وتقنيات التدريب الخصم.بالإضافة إلى ذلك، نقوم أيضا بتجربة
في هذه الورقة، نقدم نظامنا الذي شاركناه في مهمة Semeval Semeval Semeval Semeval 2021. في تجاربنا، حققنا في إمكانية استخدام نظام غموض من معنى الكلام من الكلمات الدقيقة التي تم تدريبها على البيانات المشروحة ذات الإحساس باللغة الإنجليزية ورسم تنبؤات على
تحديد ما إذا كانت الكلمة تحمل نفس المعنى أو المعنى المختلف في سياقتين هي منطقة بحثية مهمة في معالجة اللغة الطبيعية تلعب دورا مهما في العديد من التطبيقات مثل الإجابة على الأسئلة، وملخص الوثائق، واسترجاع المعلومات واستخراج المعلومات واستخراج المعلومات.