ترغب بنشر مسار تعليمي؟ اضغط هنا

ديسكيفلكس: معيار لتقييم كلمة المرور العربية المتعدد الأوسط

DiaLex: A Benchmark for Evaluating Multidialectal Arabic Word Embeddings

193   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد Word Embeddings مكونا أساسيا لأنظمة معالجة اللغة الطبيعية الحديثة، مما يجعل القدرة على تقييمها بدقة مهمة حيوية. نحن تصف ديسكوتس، معيار للتقييم الجوهري للكلمة العربية الجدلية. يغطي ديسكليكس خمسة لهجات عربية مهمة: جزائري، مصري، لبناني، سوري، وتونسي. في جميع هذه الدلج، يوفر ديسكيكلكس ضفافا لستة علاقات نصنية ودلالية، وهي الذكور إلى الإناث، المفرد إلى المزدوج، المفرد إلى الجمع، متنافرا، مقارنة، واثير إلى الماضي. وهكذا تتكون ديسكليك من مجموعة من أزواج الكلمات التي تمثل كل من العلاقات الست في كل من اللهجات الخمسة. لإظهار فائدة Dilex، نستخدمها لتقييم مجموعة من شركات الكلمة العربية الحالية والجديدة التي طورناها. بما يتجاوز تقييم Embeddings Word، يدعم ديسكلكلكس الجهود المبذولة لدمج اللهجات في منهج اللغة العربية. يمكن ترجمته بسهولة إلى العربية الحديثة العربية والإنجليزية، والتي يمكن أن تكون مفيدة لتقييم ترجمة Word. سيكون لدينا المعيار وكود التقييم ونماذج تضمين الكلمة الجديدة متاحة للجمهور.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نماذج توزيع عالية الجودة يمكن التقاط العلاقات المعجمية والدلالية بين الكلمات.وبالتالي، يقوم الباحثون بتصميم مختلف المهام الجوهرية لاختبار ما إذا كانت هذه العلاقات يتم القبض عليها.ومع ذلك، فإن معظم المهام الجوهرية مصممة للغات الحديثة، وهناك نقص في طرق التقييم للنماذج التوزيعية للشرج التاريخي.في هذه الورقة، أجرينا BAHP: معيارا لتقييم Adgeddings Word باللغة البرتغالية التاريخية، والذي يحتوي على أربعة أنواع من الاختبارات: التشابه، التشابه، والكشف التفويض، والتماسك.درسنا نماذج Word2Vec الناتجة عن اثنين من البرتغالية التاريخية في مجموعات الاختبار الأربعة هذه.توضح النتائج أن مجموعات الاختبار الخاصة بنا قادرة على قياس جودة نماذج مساحة المتجهات ويمكن أن توفر وجهة نظر شاملة لقدرة النموذج على التقاط معلومات النحوية والدلامة.علاوة على ذلك، يمكن بسهولة امتدت منهجية إنشاء مجموعات الاختبار الخاصة بنا إلى لغات تاريخية أخرى.
الاكتشاف الساخرة ذات أهمية كبيرة في فهم المشاعر والآراء الحقيقية للناس.العديد من التقيمات عبر الإنترنت، مراجعات، تعليقات وسائل التواصل الاجتماعي، إلخ.لقد تم بالفعل إجراء العديد من الأبحاث بالفعل في هذا المجال، لكن معظم الباحثين درس تحليل الساركاز الإ نجليزي مقارنة بالبحثية تتم في تحليل السخرية العربية بسبب تحديات اللغة العربية.في هذه الورقة، نقترح نهجا جديدا لتحسين اكتشاف السخرية العربية.يتم استخدام نهجنا تكبير البيانات، وكلمة السياق، ونموذج الغابات العشوائية للحصول على أفضل النتائج.كانت دقةنا في المهمة المشتركة بشأن السخرية والكشف عن المعنويات باللغة العربية 0.5189 ل F1-Saarcastic مثل المقياس الرسمي باستخدام DataSet Arsarcasmv2 المشترك (أبو فرحة، وآخرون، 2021).
تعتمد نماذج فهم اللغة الطبيعية الحديثة على أشرطة الكلمات الفرعية مسبقا، ولكن قد تحتاج التطبيقات إلى سبب الكلمات التي لم تكن أبدا أو نادرا ما ينظر إليها أثناء الاحتجاج.نظير على أن الأمثلة التي تعتمد بشكل نقدي على كلمة ندرة هي أكثر تحديا لنماذج الاستدل ال اللغوية الطبيعية.ثم نستكشف كيف يمكن أن يتعلم نموذج التعريفات، المقدمة في النص الطبيعي، للتغلب على هذا الإعاقة.عادة ما يكون فهم النموذج الخاص بتعريف ضعيفا أكثر أضعف من تضمين كلمة مصممة بشكل جيد، لكنه يستعيد معظم فجوة الأداء من استخدام كلمة غير مدربة تماما.
مشاكل صعبة مثل استجابة الأسئلة المفتوحة للنطاق الرد، وفحص الحقائق، وربط فتحة وملء الكيان تتطلب الوصول إلى مصادر المعرفة الكبيرة والخارجية. في حين أن بعض النماذج تعمل بشكل جيد على المهام الفردية، فإن النماذج العامة النامية صعبة لأن كل مهمة قد تتطلب فه رسة باهظة الثمن على حساب مصادر المعرفة المخصصة، بالإضافة إلى البنية التحتية المخصصة. لتحفيز البحث على النماذج التي تشرح معلومات محددة في موارد نصية كبيرة، نقدم معيارا للمهام اللغوية المكثفة المعرفة (KILT). ترتكز جميع المهام في Kilt في نفس لقطة Wikipedia، مما يقلل من تحول الهندسة من خلال إعادة استخدام المكونات، بالإضافة إلى تسريع البحوث في هياكل الذاكرة المرجعية المهمة. نحن نختبر كل من خطوط الأساس الخاصة ومجموعة العمل، وتقييم أداء المصب بالإضافة إلى قدرة النماذج على توفير الأصل. نجد أن مؤشر ناقلات كثيف مشترك مقترن بنموذج SEQ2SEQ هو خط أساس قوي، مما يتفوق على المزيد من الأساليب المصنوعة من الخياطة لفحص الحقائق، والإجابة على سؤال المجال المفتوح والحوار، وإنشاء نتائج تنافسية على ربط الكيان وملء الفتحة، عن طريق توليد disambigguated نص. تتوفر بيانات وكود Kilt في https://github.com/facebookresearch/kilt.
أظهرت الدراسات الحديثة أن النماذج العميقة العصبية المستندة إلى الشبكة المعرضة للأمثلة المصنوعة عن قصد، ويقترح أساليب مختلفة للدفاع ضد هجمات استبدال الكلمات العدائية لنماذج NLP العصبية. ومع ذلك، هناك نقص في الدراسة المنهجية حول مقارنة النهج الدفاعية ا لمختلفة بموجب نفس الإعداد الهجومية. في هذه الورقة، نسعى إلى ملء فجوة الدراسات المنهجية من خلال أبحاث شاملة بشأن فهم سلوك مصنفات النص العصبي المدربين من قبل طرق دفاعية مختلفة بموجب هجمات المشدلات التمثيلية. بالإضافة إلى ذلك، نقترح طريقة فعالة لزيادة تحسين متانة المصنفات النصية العصبية ضد هذه الهجمات، وحققت أعلى دقة على كل من الأمثلة النظيفة والمنعدة على مجموعات بيانات Agnews و IMDB بمهامش مهم. نأمل أن توفر هذه الدراسة أدلة مفيدة للبحث في المستقبل على الدفاع المشددي النصي. تتوفر الرموز في https://github.com/rockylzy/textdefender.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا