ترغب بنشر مسار تعليمي؟ اضغط هنا

Liori في Semeval-2021 المهمة 2: SPAN التنبؤ والنهج التصنيف الثنائية ل Disambiguation Word-in السياق

LIORI at SemEval-2021 Task 2: Span Prediction and Binary Classification approaches to Word-in-Context Disambiguation

203   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة مناهجنا إلى مهمة Semeval-2021 2: مهمة غموض متعددة اللغات والتبلغة في السياق.حاول النهج الأول إعادة صياغة المهمة كمسألة مسألة الإجابة على المشكلة، في حين أن ثاني واحدة مؤطرة أنها مشكلة تصنيف ثنائية.أفضل نظام لدينا، الذي يعد فرقة من الطبقات الثنائية المصنوعة من XLM-R المدربين مع زيادة البيانات، هو من بين 3 أنظمة أفضل أداء للروسية والفرنسية والعربية في التراكب الفرعي متعدد اللغات.في فترة ما بعد التقييم، جربنا بتطبيع الدفعات، تجمع الكلمات الفرعية وأساليب تجميع الكلمات المستهدفة، مما يؤدي إلى مزيد من التحسينات الأداء.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم نظامنا الذي شاركناه في مهمة Semeval Semeval Semeval Semeval 2021. في تجاربنا، حققنا في إمكانية استخدام نظام غموض من معنى الكلام من الكلمات الدقيقة التي تم تدريبها على البيانات المشروحة ذات الإحساس باللغة الإنجليزية ورسم تنبؤات على التكافؤ الدلالي للكلمات في السياق بناء على تشابه القوائم المرتبة يتعين اتخاذ إجراءات Wordnet (الإنجليزية) التي تم إرجاعها لقرارات الكلمات المستهدفة. نغلبنا على الجوانب المتعددة، والأشياء عبر اللغات من المهمة المشتركة من خلال تطبيق محول متعدد اللغات لترميز النصوص المكتوبة في اللغة العربية والإنجليزية والفرنسية والروسية والصينية. في حين أن نتائجنا تتأخر وراء التقديمات الكبيرة التقديرات، إلا أنها تتمتع بالفائدة التي لا توفر فقط علم ثنائي سواء كانت كلمتين في سياقها لها نفس المعنى، ولكنها توفر أيضا إخراج أكثر ملموسة في شكل قائمة في المرتبة (الإنجليزية) يتخلخل Wordnet بغض النظر عن لغة نصوص الإدخال. نظرا لأن إطارنا مصمم ليكون عاميا قدر الإمكان، فيمكن تطبيقه كأساس أساسي لأي لغة (مدعومة من الهندسة المعمارية المتعددة اللغات المستخدمة) حتى في غياب أي شكل إضافي من بيانات التدريب المحددة للغة.
تقدم هذه الورقة نظام الفوز لفريق بالي لمهمة SEMEVAL-2021 2: غزالة متعددة اللغات والتبلغة في السياق.نحن نغتنم نموذج XLM-Roberta لحل مهمة Word في حالة غموض السياق، أي، لتحديد ما إذا كانت الكلمة المستهدفة في السياقتين تحتوي على نفس المعنى أم لا.في التنف يذ، نقوم أولا بتصميم علامة الإدخال أولا للتأكيد على الكلمة المستهدفة في السياقات.ثانيا، نقوم بإنشاء متجه جديد على المدينات الدقيقة من XLM-Roberta وأعلفه بشبكة متصلة بالكامل لإخراج احتمال ما إذا كانت الكلمة المستهدفة في السياق لها نفس المعنى أم لا.يتم تحقيق المتجهات الجديد من خلال التمسك بتضمين الرمز المميز [CLS] ومذكرات الكلمة المستهدفة في السياقات.في التدريب، نستكشف العديد من الحيل، مثل محسن الحارس، وتعزيز البيانات، والتدريب الخصم، لتحسين التنبؤ النموذجي.وبالتالي، فإننا نحصل على المركز الأول في جميع المهام الأربعة عبر اللغات.
في هذه الورقة، نقدم المهمة السامية الأولى على الغموض المتعددة اللغات والبلاية في السياق (MCL-WIC). تتيح هذه المهمة القدرة الكامنة التي تم التحقيق بها إلى حد كبير من القدرة المتأصلة إلى حد كبير في التمييز بين حواس الكلمات داخل وبصور اللغات المراد تقيي مها، مما أدى إلى تقييم متطلبات جرد ذات معنى ثابت. مؤطرة كتصنيف ثنائي، مهمتنا مقسمة إلى جزأين. في المهمة الفرعية متعددة اللغات، يتعين على النظم المشاركة تحديد ما إذا كانت كلمتين مستهدفتين، كل منهما يحدث في سياق مختلف داخل نفس اللغة، معبرا عن نفس المعنى أم لا. بدلا من ذلك، في الجزء اللغوي، يطلب من النظم إجراء المهمة في سيناريو عبر اللغات، حيث يتم توفير الكلمات المستهدفة والسياقتين المقابلين بلغتين مختلفتين. نوضح مهمتنا، وكذلك بناء مجموعة بياناتنا التي أنشأنا يدويا بما في ذلك خمس لغات، وهي العربية والصينية والإنجليزية والفرنسية والروسية، ونتائج النظم المشاركة. مجموعات البيانات والنتائج متوفرة في: https://github.com/sapienzanlp/mcl-wic.
تقدم هذه الورقة نظام الغموض في السياق.تركز المهمة على التقاط الطبيعة Polysemous للكلمات في بيئة متعددة اللغات واللغة اللغوية، دون النظر في جرد صارم من معاني الكلمات.يطبق النظام خوارزميات معالجة اللغة الطبيعية على مجموعات البيانات من مهمة Semeval 2021 2، والقدرة على تحديد معنى الكلمات للغات العربية والصينية والإنجليزية والفرنسية والروسية، دون الاستفادة من أي موارد أحادية أو متعددة اللغات إضافية.
تحديد ما إذا كانت الكلمة تحمل نفس المعنى أو المعنى المختلف في سياقتين هي منطقة بحثية مهمة في معالجة اللغة الطبيعية تلعب دورا مهما في العديد من التطبيقات مثل الإجابة على الأسئلة، وملخص الوثائق، واسترجاع المعلومات واستخراج المعلومات واستخراج المعلومات. يعتمد معظم العمل السابق في هذا المجال على الموارد الخاصة باللغة مما يجعل من الصعب التعميم عبر اللغات.النظر في هذا القيد، فإن نهجنا في مهمة Semeval-2021 يعتمد فقط على نماذج محول مسبقا ولا يستخدم أي معالجة وموارد خاصة باللغة.على الرغم من ذلك، يحقق أفضل نموذج لدينا 0.90 دقة للترقيط الفرعي الإنجليزي الإنجليزي وهو متوافق للغاية مقارنة بأفضل نتيجة الترجمة الفرعية؛0.93 دقة.نهجنا يحقق أيضا نتائج مرضية في أزواج لغة أحادية الألوان وغير اللغوية الأخرى أيضا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا