ترغب بنشر مسار تعليمي؟ اضغط هنا

SEMEVAL-2021 المهمة 2: الغموض متعددة اللغات والتبلغة في السياق (MCL-WIC)

SemEval-2021 Task 2: Multilingual and Cross-lingual Word-in-Context Disambiguation (MCL-WiC)

211   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقدم المهمة السامية الأولى على الغموض المتعددة اللغات والبلاية في السياق (MCL-WIC). تتيح هذه المهمة القدرة الكامنة التي تم التحقيق بها إلى حد كبير من القدرة المتأصلة إلى حد كبير في التمييز بين حواس الكلمات داخل وبصور اللغات المراد تقييمها، مما أدى إلى تقييم متطلبات جرد ذات معنى ثابت. مؤطرة كتصنيف ثنائي، مهمتنا مقسمة إلى جزأين. في المهمة الفرعية متعددة اللغات، يتعين على النظم المشاركة تحديد ما إذا كانت كلمتين مستهدفتين، كل منهما يحدث في سياق مختلف داخل نفس اللغة، معبرا عن نفس المعنى أم لا. بدلا من ذلك، في الجزء اللغوي، يطلب من النظم إجراء المهمة في سيناريو عبر اللغات، حيث يتم توفير الكلمات المستهدفة والسياقتين المقابلين بلغتين مختلفتين. نوضح مهمتنا، وكذلك بناء مجموعة بياناتنا التي أنشأنا يدويا بما في ذلك خمس لغات، وهي العربية والصينية والإنجليزية والفرنسية والروسية، ونتائج النظم المشاركة. مجموعات البيانات والنتائج متوفرة في: https://github.com/sapienzanlp/mcl-wic.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذا العمل، نقدم نهجنا لحل المهمة Semeval 2021 2: الغموض المتعددة اللغات والتبلغة في السياق (MCL-WIC). المهمة هي مشكلة تصنيف زوج الجملة حيث يكون الهدف هو اكتشاف ما إذا كانت كلمة معينة مشتركة بين كل من الجمل تثير نفس المعنى. نقدم أنظمة لكلا الإعدادا ت - متعددة اللغات (جمل الزوج تنتمي إلى نفس اللغة) واللغة اللغوية (جمل الزوج تنتمي إلى لغات مختلفة). يتم توفير بيانات التدريب باللغة الإنجليزية فقط. وبالتالي، فإننا نوظف تقنيات النقل عبر اللغات. توظف نهجنا نماذج اللغة القائمة على المحولات التي تم تدريبها مسبقا، مثل Electra و Albert، للمهمة الإنجليزية و XLM-R لجميع المهام الأخرى. لتحسين أداء هذه الأنظمة، نقترح إضافة إشارة إلى الكلمة التي سيتم إزالتها وتزيد بياناتنا عن طريق انعكاس زوج الجملة. ونحن كذلك زيادة DataSet المقدمة إلينا مع WIC و XL-WIC و SEMCOR 3.0. باستخدام الكفر، نحقق أداء قويا في المهمة المتعددة اللغات، حيث وضعت أولا في المهام الفرعية EN-EN و FR-FR. بالنسبة للإعداد المتبادل، فإننا أعملنا بترجمة طرق اختبار وطريقة طلقة صفرية، باستخدام نماذجنا متعددة اللغات، مع الأداء الأخير بشكل أفضل قليلا.
تقدم هذه الورقة نظام الغموض في السياق.تركز المهمة على التقاط الطبيعة Polysemous للكلمات في بيئة متعددة اللغات واللغة اللغوية، دون النظر في جرد صارم من معاني الكلمات.يطبق النظام خوارزميات معالجة اللغة الطبيعية على مجموعات البيانات من مهمة Semeval 2021 2، والقدرة على تحديد معنى الكلمات للغات العربية والصينية والإنجليزية والفرنسية والروسية، دون الاستفادة من أي موارد أحادية أو متعددة اللغات إضافية.
نقوم بتجربة XLM Roberta for Word في سياق الغموض في الإعداد اللغوي متعدد اللغات والصليب لتطوير نموذج واحد لديه معرفة حول كلا الإعدادات.نحل المشكلة كمشكلة تصنيف ثنائية وكذلك تجربة تكبير البيانات وتقنيات التدريب الخصم.بالإضافة إلى ذلك، نقوم أيضا بتجربة تقنية تدريب مرتبة 2.تثبت أسالبتنا أنها مفيدة لأداء أفضل وأغاني.
في هذه الورقة، نقدم نظامنا الذي شاركناه في مهمة Semeval Semeval Semeval Semeval 2021. في تجاربنا، حققنا في إمكانية استخدام نظام غموض من معنى الكلام من الكلمات الدقيقة التي تم تدريبها على البيانات المشروحة ذات الإحساس باللغة الإنجليزية ورسم تنبؤات على التكافؤ الدلالي للكلمات في السياق بناء على تشابه القوائم المرتبة يتعين اتخاذ إجراءات Wordnet (الإنجليزية) التي تم إرجاعها لقرارات الكلمات المستهدفة. نغلبنا على الجوانب المتعددة، والأشياء عبر اللغات من المهمة المشتركة من خلال تطبيق محول متعدد اللغات لترميز النصوص المكتوبة في اللغة العربية والإنجليزية والفرنسية والروسية والصينية. في حين أن نتائجنا تتأخر وراء التقديمات الكبيرة التقديرات، إلا أنها تتمتع بالفائدة التي لا توفر فقط علم ثنائي سواء كانت كلمتين في سياقها لها نفس المعنى، ولكنها توفر أيضا إخراج أكثر ملموسة في شكل قائمة في المرتبة (الإنجليزية) يتخلخل Wordnet بغض النظر عن لغة نصوص الإدخال. نظرا لأن إطارنا مصمم ليكون عاميا قدر الإمكان، فيمكن تطبيقه كأساس أساسي لأي لغة (مدعومة من الهندسة المعمارية المتعددة اللغات المستخدمة) حتى في غياب أي شكل إضافي من بيانات التدريب المحددة للغة.
تحديد ما إذا كانت الكلمة تحمل نفس المعنى أو المعنى المختلف في سياقتين هي منطقة بحثية مهمة في معالجة اللغة الطبيعية تلعب دورا مهما في العديد من التطبيقات مثل الإجابة على الأسئلة، وملخص الوثائق، واسترجاع المعلومات واستخراج المعلومات واستخراج المعلومات. يعتمد معظم العمل السابق في هذا المجال على الموارد الخاصة باللغة مما يجعل من الصعب التعميم عبر اللغات.النظر في هذا القيد، فإن نهجنا في مهمة Semeval-2021 يعتمد فقط على نماذج محول مسبقا ولا يستخدم أي معالجة وموارد خاصة باللغة.على الرغم من ذلك، يحقق أفضل نموذج لدينا 0.90 دقة للترقيط الفرعي الإنجليزي الإنجليزي وهو متوافق للغاية مقارنة بأفضل نتيجة الترجمة الفرعية؛0.93 دقة.نهجنا يحقق أيضا نتائج مرضية في أزواج لغة أحادية الألوان وغير اللغوية الأخرى أيضا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا