ترغب بنشر مسار تعليمي؟ اضغط هنا

Alue: التقييم في اللغة العربية

ALUE: Arabic Language Understanding Evaluation

528   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

ساعد ظهور نماذج التعلم المتعددة المهام (MTL) في السنوات الأخيرة دفع الشقيقة للفن في اللغة الطبيعية Un-derstanding (NLU). نعتقد بشدة أن مشاكل Thanmany NLU باللغة العربية يتم تصحيحها على جني فوائد هذه النماذج. تنتهي Tothis نقترح معيار التقييم باللغة العربية للأمم المتحدة (Alue)، بناء على 8 مهام مختارة بعناية و Lateded. لمدة خمسة من هؤلاء، نوفرو مجموعات من هذه البيانات الخاصة بتقييم القطاع الخاص للهناء من نزاهة وصلاحية معيارنا. كما نقدم مجموعة بيانات تشخيصية لتحقيق الأعمال الداخلية للبحث في الأعمال الداخلية لصالحهم. تجاربهم الأولية تظهر نماذج THOTMTL تتفوق على ThereCedCounterParts مهام. ولكن من أجل مشاركة EN-TICE من المجتمع الأوسع، نلتزم بالنشر المدربين أساسا أساسيا. ومع ذلك، فإن تحليلنا يكشف أن هذا هو الكثير من الغرفة للتحسين nlu inarabic. نأمل أن يتم تشغيل Alue جزءا في مساعدة مجتمعنا على تحقيق بعض هذه التحسينات. قام الباحثون المهتمون بدعوة إلى تقديم نتائجنا إلى المتصدرين لدينا عبر الإنترنت، ويمكن الوصول إليها علنا.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مكنت التقدم في تمثيل اللغة الإنجليزية مهمة أكثر كفاءة عينة من خلال التعلم بكفاءة ترميز يصنف بدائل الرمز المميز بدقة (Electra).أي، بدلا من تدريب نموذج لاستعادة الرموز الممثيلين، يقوم بتدريب نموذج تمييزي على التمييز بين الرموز الإدخال الحقيقية من الرمو ز التالفة التي تم استبدالها بشبكة مولدات.من ناحية أخرى، فإن نهج تمثيل اللغة باللغة العربية الحالية تعتمد فقط على الاحتجاج عن طريق نمذجة اللغة الملثم.في هذه الورقة، نقوم بتطوير نموذج تمثيل اللغة باللغة العربية، والتي نستها ARAELECTRA.يتم الاحترام من النموذج الخاص بنا باستخدام هدف الكشف عن الرمز المميز في النص العربي الكبير.نقوم بتقييم نموذجنا على مهام NLP العربية المتعددة، بما في ذلك فهم القراءة وتحليل المعرفات والاعتراف باسم الكيان المسمى ونعرض أن ARAELECTRA تتفوق على نماذج تمثيل اللغة العربية الحديثة الحالية، بالنظر إلى نفس البيانات المحددةحجم نموذج أصغر.
جرى تصميم منظومة عصبونية ذكية تعمل بمساعدة نظام خبير لبيان نحو و إعراب اللغة العربية. و جرت دراسة و تحليل أشكال الجمل العربية و أنواعها، و صنفت في حقول نحوية جديدة. يتكون كل حقل من العناصر الأساسية للجملة، من فعل و فاعل و مبتدأ و سواها. جرى إحصاء جميع الأشكال التي ترد عليها الجملة العربية، وُ فصلت في حقول فعلية و اسمية. جرى تصميم شبكة عصبونية تأخذ في مداخلها عناصر الجملة و تعطي في مخارجها الحقل النحوي المناسب.
غالبا ما يتم تقييم نماذج اللغة المستخدمة في التعرف على الكلام بشكل جوهري باستخدام حيرة في بيانات الاختبار أو غير مسبوق مع نظام التعرف على الكلام التلقائي (ASR). لا يرتبط التقييم السابق دائما بشكل جيد مع أداء ASR، في حين أن الأخير يمكن أن يكون محددا ل أنظمة ASR معينة. اقترح العمل الحديث لتقييم نماذج اللغة باستخدامها لتصنيف جمل الحقيقة الأرضية بين جمل مماثلة للالعناد الصوتي الناتج عن محول الدولة الدقيقة. مثل هذا التقييم هو افتراض أن الجمل التي تم إنشاؤها غير صحيحة لغويا. في هذه الورقة، وضعنا أولا هذا الافتراض موضع السؤال، ومراقبة أن الجمل التي تم إنشاؤها بدلا من ذلك قد تكون صحيحة في كثير من الأحيان لغويا عندما تختلف عن الحقيقة الأرضية بواسطة تحرير واحد فقط. ثانيا، أظهرنا أنه باستخدام بيرت متعددة اللغات، يمكننا تحقيق أداء أفضل من العمل السابق على مجموعات بيانات تبديل التعليمات البرمجية. تطبيقنا متاح علنا ​​على Github في https://github.com/sikfeng/language-modelling-for-code-Switching.
تُشكِّلُ معرفةُ الحركات في اللغة العبرية إحدى أهم العوائق التي يعاني منها دارسو اللغة العبرية؛ و ذلك بسبب تشعُّبِهَا قياساً بنظيراتها في اللغة العربية، و قد عملتُ، جاهداً، في بحثي هذا على تقريبها، قدْر المستطاع إلى ذهن المتلقي العربي، و ذلك من خلال ا لمقارنة بينها و بين نظيراتها في اللغة العربية، و قد تبيَّن لنا من خلال البحث أنَّ أغلب الحركات العبرية لها ما يماثلها في اللغة العربية، غير أنَّ اللغويين العرب لم يخصِّصوا حركةً مستقلةً للإمالة أو الضم المفتوح أو الكسر المُمَال،... كما فعل اللغويون العبريون، الأمر الذي يوحي للدارس، غير المتعمق، بأنَّ عددَ رموزِ الحركات العبرية أكثر من العربية.
الكشف عن اللغة الهجومية على Twitter لديها العديد من التطبيقات التي تتراوح من الكشف / التنبؤ بالتنبؤ لقياس الاستقطاب.في هذه الورقة، نركز على بناء مجموعة بيانات تغريدة عربية كبيرة.نقدم طريقة لبناء مجموعة بيانات غير متحيزة حسب الموضوع أو اللهجة أو الهدف .نحن ننتج أكبر مجموعة بيانات عربية حتى الآن مع علامات خاصة لخطاب الاداءات والكراهية.نحن نحلل تماما مجموعة البيانات لتحديد الموضوعات واللهجات والجنس الأكثر ترتبط أكثر من التغريدات الهجومية وكيفية استخدام المتحدثين باللغة العربية اللغة.أخيرا، نقوم بإجراء العديد من التجارب لإنتاج نتائج قوية (F1 = 83.2) على مجموعة البيانات باستخدام تقنيات SOTA.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا