ترغب بنشر مسار تعليمي؟ اضغط هنا

LU-BZU في مهمة Semeval-2021: أداء Word2VEC و LEMMA2VEC في الغزانة باللغة العربية في السياق

LU-BZU at SemEval-2021 Task 2: Word2Vec and Lemma2Vec performance in Arabic Word-in-Context disambiguation

88   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة مجموعة من التجارب لتقييم ومقارنتها بين أداء استخدام نماذج CBOW Word2VEC و Lemma2vec للغموض باللغة العربية في السياق (WIC) دون استخدام مخزونات الإحساس أو Asbeddings المعنى.كجزء من المهمة المشتركة Semeval-2021 2 على Devambiguation WIC، استخدمنا DEV.AR-AR-ARSET (أزواج الجملة 2K) لتحديد ما إذا كانت كلمتين في زوج جملة معينة تحمل نفس المعنى.استخدمنا نماذج Word2vec: Wiki-cbow، وهو نموذج مدرب مسبقا على Wikipedia العرب، ونموذج آخر تدربنا على كورسا عربية كبيرة من حوالي 3 مليارات رموز.كما تم بناء نماذج LEMMA2VEC بناء على نماذج Word2vec.بعد ذلك تم استخدام كل من النماذج الأربعة في مهمة Disambiguation WIC، ثم يتم تقييمها على DataSet Semeval-2021 Test.ar-Ar-Ar.في النهاية، أبلغنا عن أداء النماذج المختلفة ومقارنتها بين استخدام النماذج القائمة على Lemma ومقرها الكلمات.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة نظام الغموض في السياق.تركز المهمة على التقاط الطبيعة Polysemous للكلمات في بيئة متعددة اللغات واللغة اللغوية، دون النظر في جرد صارم من معاني الكلمات.يطبق النظام خوارزميات معالجة اللغة الطبيعية على مجموعات البيانات من مهمة Semeval 2021 2، والقدرة على تحديد معنى الكلمات للغات العربية والصينية والإنجليزية والفرنسية والروسية، دون الاستفادة من أي موارد أحادية أو متعددة اللغات إضافية.
تقدم هذه الورقة نظام الفوز لفريق بالي لمهمة SEMEVAL-2021 2: غزالة متعددة اللغات والتبلغة في السياق.نحن نغتنم نموذج XLM-Roberta لحل مهمة Word في حالة غموض السياق، أي، لتحديد ما إذا كانت الكلمة المستهدفة في السياقتين تحتوي على نفس المعنى أم لا.في التنف يذ، نقوم أولا بتصميم علامة الإدخال أولا للتأكيد على الكلمة المستهدفة في السياقات.ثانيا، نقوم بإنشاء متجه جديد على المدينات الدقيقة من XLM-Roberta وأعلفه بشبكة متصلة بالكامل لإخراج احتمال ما إذا كانت الكلمة المستهدفة في السياق لها نفس المعنى أم لا.يتم تحقيق المتجهات الجديد من خلال التمسك بتضمين الرمز المميز [CLS] ومذكرات الكلمة المستهدفة في السياقات.في التدريب، نستكشف العديد من الحيل، مثل محسن الحارس، وتعزيز البيانات، والتدريب الخصم، لتحسين التنبؤ النموذجي.وبالتالي، فإننا نحصل على المركز الأول في جميع المهام الأربعة عبر اللغات.
في هذه الورقة، نقدم المهمة السامية الأولى على الغموض المتعددة اللغات والبلاية في السياق (MCL-WIC). تتيح هذه المهمة القدرة الكامنة التي تم التحقيق بها إلى حد كبير من القدرة المتأصلة إلى حد كبير في التمييز بين حواس الكلمات داخل وبصور اللغات المراد تقيي مها، مما أدى إلى تقييم متطلبات جرد ذات معنى ثابت. مؤطرة كتصنيف ثنائي، مهمتنا مقسمة إلى جزأين. في المهمة الفرعية متعددة اللغات، يتعين على النظم المشاركة تحديد ما إذا كانت كلمتين مستهدفتين، كل منهما يحدث في سياق مختلف داخل نفس اللغة، معبرا عن نفس المعنى أم لا. بدلا من ذلك، في الجزء اللغوي، يطلب من النظم إجراء المهمة في سيناريو عبر اللغات، حيث يتم توفير الكلمات المستهدفة والسياقتين المقابلين بلغتين مختلفتين. نوضح مهمتنا، وكذلك بناء مجموعة بياناتنا التي أنشأنا يدويا بما في ذلك خمس لغات، وهي العربية والصينية والإنجليزية والفرنسية والروسية، ونتائج النظم المشاركة. مجموعات البيانات والنتائج متوفرة في: https://github.com/sapienzanlp/mcl-wic.
تقدم هذه الورقة مناهجنا إلى مهمة Semeval-2021 2: مهمة غموض متعددة اللغات والتبلغة في السياق.حاول النهج الأول إعادة صياغة المهمة كمسألة مسألة الإجابة على المشكلة، في حين أن ثاني واحدة مؤطرة أنها مشكلة تصنيف ثنائية.أفضل نظام لدينا، الذي يعد فرقة من الط بقات الثنائية المصنوعة من XLM-R المدربين مع زيادة البيانات، هو من بين 3 أنظمة أفضل أداء للروسية والفرنسية والعربية في التراكب الفرعي متعدد اللغات.في فترة ما بعد التقييم، جربنا بتطبيع الدفعات، تجمع الكلمات الفرعية وأساليب تجميع الكلمات المستهدفة، مما يؤدي إلى مزيد من التحسينات الأداء.
في هذه الورقة، نقدم نظاما لحل مهمة الغموض في السياق عبر اللغات واللغات متعددة اللغات. قدم منظمو المهام بيانات أحادية الأونلينغ بعدة لغات، ولكن لم تتوفر بيانات تدريبية عبر اللغات. لمعالجة عدم وجود بيانات تدريبية عبر اللغات المقدمة رسميا، قررنا توليد ه ذه البيانات بأنفسنا. نحن نصف نهج بسيط ولكنه فعال يعتمد على الترجمة الآلية والترجمة الخلفية للوحدات المعجمية إلى اللغة الأصلية المستخدمة في سياق هذه المهمة المشتركة. في تجاربنا، استخدمنا نظاما عصبا يعتمد على نموذج لغة XLM-R، وهو نموذج لغة ملثم مقره محول مسبقا، كناسما أساسيا. نظهر فعالية النهج المقترح لأنه يسمح بتحسين أداء هذا النموذج الأساسي القوي العصبي القوي. بالإضافة إلى ذلك، في هذه الدراسة، نقدم أنواعا متعددة من المصنف المستند إلى XLM-R، وتجربة طرق مختلفة لخلط المعلومات من الأحداث الأولى والثانية للكلمة المستهدفة في عينتين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا