نحن تصف تقديم UPPSALA NLP إلى مهمة SEMEVAL-2021 2 على الغمزة متعددة اللغات والتبلغة في السياق.نستكشف عن فائدة ثلاثة نماذج لغوية متعددة اللغات المدربة مسبقا، XLM-Roberta (XLMR)، بيرت متعددة اللغات (MBERT) بيرت مقطورة متعددة اللغات (Mdistilbert).قارنا هذه النماذج الثلاثة في اثنين من الإعدادات، والضبط بشكل جيد وكمسافات ميزة.في الحالة الثانية، نقوم أيضا بتجربة استخدام المعلومات المستندة إلى التبعية.نجد أن الضبط الدقيق أفضل من استخراج الميزات.يعمل XLMR بشكل أفضل من mbert في الإعداد المتبادل على حد سواء مع ضبط الدقيقة والميزة، في حين أن هاتين النموذجين تعطي أداء مماثل في الإعداد متعدد اللغات.يعمل Mdistilbert بشكل سيئ مع ضبط جيد ولكن يعطي نتائج مماثلة للنماذج الأخرى عند استخدامها كمستغل ميزة.قدمنا أفضل أنظمةنا، يتم ضبطها بشكل جيد مع XLMR و Mbert.
We describe the Uppsala NLP submission to SemEval-2021 Task 2 on multilingual and cross-lingual word-in-context disambiguation. We explore the usefulness of three pre-trained multilingual language models, XLM-RoBERTa (XLMR), Multilingual BERT (mBERT) and multilingual distilled BERT (mDistilBERT). We compare these three models in two setups, fine-tuning and as feature extractors. In the second case we also experiment with using dependency-based information. We find that fine-tuning is better than feature extraction. XLMR performs better than mBERT in the cross-lingual setting both with fine-tuning and feature extraction, whereas these two models give a similar performance in the multilingual setting. mDistilBERT performs poorly with fine-tuning but gives similar results to the other models when used as a feature extractor. We submitted our two best systems, fine-tuned with XLMR and mBERT.
المراجع المستخدمة
https://aclanthology.org/
في هذه الورقة، نقدم المهمة السامية الأولى على الغموض المتعددة اللغات والبلاية في السياق (MCL-WIC). تتيح هذه المهمة القدرة الكامنة التي تم التحقيق بها إلى حد كبير من القدرة المتأصلة إلى حد كبير في التمييز بين حواس الكلمات داخل وبصور اللغات المراد تقيي
تقدم هذه الورقة نظام الغموض في السياق.تركز المهمة على التقاط الطبيعة Polysemous للكلمات في بيئة متعددة اللغات واللغة اللغوية، دون النظر في جرد صارم من معاني الكلمات.يطبق النظام خوارزميات معالجة اللغة الطبيعية على مجموعات البيانات من مهمة Semeval 2021
في هذا العمل، نقدم نهجنا لحل المهمة Semeval 2021 2: الغموض المتعددة اللغات والتبلغة في السياق (MCL-WIC). المهمة هي مشكلة تصنيف زوج الجملة حيث يكون الهدف هو اكتشاف ما إذا كانت كلمة معينة مشتركة بين كل من الجمل تثير نفس المعنى. نقدم أنظمة لكلا الإعدادا
نقوم بتجربة XLM Roberta for Word في سياق الغموض في الإعداد اللغوي متعدد اللغات والصليب لتطوير نموذج واحد لديه معرفة حول كلا الإعدادات.نحل المشكلة كمشكلة تصنيف ثنائية وكذلك تجربة تكبير البيانات وتقنيات التدريب الخصم.بالإضافة إلى ذلك، نقوم أيضا بتجربة
تحديد ما إذا كانت الكلمة تحمل نفس المعنى أو المعنى المختلف في سياقتين هي منطقة بحثية مهمة في معالجة اللغة الطبيعية تلعب دورا مهما في العديد من التطبيقات مثل الإجابة على الأسئلة، وملخص الوثائق، واسترجاع المعلومات واستخراج المعلومات واستخراج المعلومات.