ترغب بنشر مسار تعليمي؟ اضغط هنا

Damascusteam في NLP4IF2021: مكافحة المعكرات العربية العسكرية في تويتر باستخدام أرابيرت

DamascusTeam at NLP4IF2021: Fighting the Arabic COVID-19 Infodemic on Twitter Using AraBERT

420   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

كان الهدف من هذا العمل هو إدخال نهج فعال يستند إلى نموذج اللغة العربية لمكافحة التغريدات Covid-19 InfoDemic.تم ترتيبها في شكل خط أنابيب من خطوتين، حيث تضمنت الخطوة الأولى سلسلة من إجراءات المعالجة المسبقة لتحويل Twitter Jargon، بما في ذلك الرموز التعبيرية والرموز، في نص عادي، واستغلت الخطوة الثانية نسخة من أرابيرت، والتيتم تدريب مسبقا على نص عادي، لضبط وتصنيف التغريدات فيما يتعلق بتسميةهم.كان استخدام نماذج اللغة المدربة مسبقا على النصوص العادية بدلا من الحصول على تغريدات من الضرورة لمعالجة قضايا نقدية مبينة من الأدبيات العلمية، وهي (1) نماذج اللغة المدربة مسبقا متوفرة على نطاق واسع في العديد من اللغات، وتجنب الوقت-Consuming والتدريب النموذجي المكثف من الموارد مباشرة على تغريدات من نقطة الصفر، مما يتيح التركيز فقط على ضبطه الجميل؛(2) النص العادي المتاح كورسا أكبر من تغريدة فقط، مما يسمح بأداء أفضل.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم النتائج والنتائج الرئيسية للمهام المشتركة NLP4IF-2021. تركز المهمة 1 على محاربة المعكرات المعاكسة 19 في وسائل التواصل الاجتماعي، وتم عرضها باللغة العربية والكبلانية والإنجليزية. بالنظر إلى تغريدة، طلبت التنبؤ بما إذا كانت هذه التغريدات تحتوي على مطالبة يمكن التحقق منها، وإذا كان الأمر كذلك، فمن المحتمل أن تكون خاطئة، من المحتمل أن تكون ذات مصلحة عامة، من المرجح أن تكون ضارة، وتستحق التحقق من الحقائق اليدوية؛ أيضا، سواء كان ضارا بالمجتمع، وما إذا كان يتطلب انتباه صانعي السياسات. المهمة 2 التي تركز على كشف الرقابة، وتم عرضها باللغة الصينية. ما مجموعه عشرة فرق تقدم أنظمة للمهمة 1، وشارك فريق واحد في المهمة 2؛ قدمت تسعة فرق أيضا ورقة وصف للنظام. هنا، نقدم المهام، وتحليل النتائج، ومناقشة طلبات النظام والأساليب التي استخدموها. حققت معظم التقديمات تحسينات كبيرة على العديد من خطوط الأساس، وأفضل أنظمة تستخدم المحولات المدربة مسبقا وفرق. تتوفر البيانات، والهدوشات ومصدرها للمهام على http://gitlab.com/nlp4if/nlp4if-2021.
أصبح الانتشار الهائل للمعلومات الخاطئة عن وسائل التواصل الاجتماعي مخاطر عالمية خاصة في وضع جائحة عالمي مثل Covid-19. وبالتالي أصبح الكشف عن المعلومات الخاطئة موضوعا للأبحاث في الأشهر الأخيرة. في السنوات الأخيرة، تم استخدام نماذج تعلم الآلات الخاضعة ل لإشراف لتحديد المعلومات الخاطئة تلقائيا في وسائل التواصل الاجتماعي. ومع ذلك، فإن معظم نماذج تعلم الآلات هذه تركز فقط على اللغة التي تم تدريبها عليها. بالنظر إلى حقيقة أن منصات وسائل التواصل الاجتماعي تستخدم بلغات مختلفة، فإن إدارة نماذج التعلم في الآلات لكل لغة ستكون كل لغة فوضوية. في هذا البحث، نقوم بتجربة نماذج متعددة اللغات لتحديد معلومات خاطئة في وسائل التواصل الاجتماعي باستخدام مجموعة بيانات كشف مزورة متعددة اللغات تم إصدارها مؤخرا. نظرا لأن النماذج متعددة اللغات تؤدي على قدم المساواة مع النماذج الأولية وأحيانا أفضل من النماذج الأولية للكشف عن معلومات كاذبة في وسائل التواصل الاجتماعي مما يجعلها أكثر فائدة في سيناريوهات العالم الحقيقي.
تصف هذه الورقة النموذج الفائز في المهمة المشتركة باللغة العربية NLP4IF لمحاربة المعكرية CovID-19.الهدف من المهمة المشتركة هو التحقق من التضليل حول Covid-19 في تغريدات عربية.تم تصنيف نموذجنا المقترح الأول مع درجة F1 من 0.780 ونتيجة دقة من 0.762.تم تجر بة مجموعة متنوعة من النماذج اللغوية المدربة المستندة إلى المحولات من خلال هذه الدراسة.يعد النموذج الأفضل سجل فرقة من نماذج عربيرت والقاعدة في عربيه، وأربرت.تتمثل إحدى النتائج الرئيسية في الدراسة في إظهار التأثير يمكن أن يكون للمعالجة المسبقة في درجة كل نموذج.بالإضافة إلى وصف النموذج الفائز، تظهر الدراسة الحالية تحليل الأخطاء.
توفر هذه الورقة نظرة عامة مفصلة للنظام ونتائجها، والتي تم إنتاجها كجزء من المهمة المشتركة NLP4IF بشأن مكافحة المعكرات المعاكسة 19 في Naacl 2021. هذه المهمة تم إنجازها باستخدام مجموعة متنوعة من التقنيات.استخدمنا نماذج التمثيل النصية الحديثة للسياق الت ي كانت تم ضبطها بشكل جيد لمهمة المصب في متناول اليد.تم استخدام Arbert، Marbert، أرابيرت، ألبرت العربي وألبرت والقاعدة العربية.وفقا للنتائج، كان لدى Bert-Base-Arabic أعلى درجة 0.784 F1 في مجموعة الاختبار.
مع ظهور جائحة Covid-19، تم دمج الجوانب السياسية والطبية المتمثلة في التضليل حيث حصلت المشكلة على ارتفاع إلى مستوى جديد تماما لتصبح أول انفجار عالمي. تم إعلان محاربة هذا المعف النقود أحد أهم مجالات التركيز في منظمة الصحة العالمية، مع وجود مخاطر تتراوح من تعزيز العلاجات المزيفة والشائعات ونظريات المؤامرة لنشر كراهية الأجانب والذعر. يتطلب معالجة القضية حل عدد من المشاكل الصعبة مثل تحديد الرسائل التي تحتوي على مطالبات، وتحديد الجدارة الشيكية والوصيل لها، وإمكاناتها لإيذاءها وكذلك طبيعة هذا الضرر، لنذكر عدد قليل فقط. لمعالجة هذه الفجوة، نقوم بإصدار مجموعة بيانات كبيرة من 16 ألف تغريدات مشروح يدويا لتحليل التهيئة الدقيقة التي يركز عليها (ط) على CovID-19، (II) تجمع بين وجهات النظر ومصالح الصحفيين، ومساجي الحقائق، ومنصات وسائل التواصل الاجتماعي ، صانعي السياسات، والمجتمع، و (3) يغطي العربية والكبلانية والهولندية والإنجليزية. أخيرا، نظهر نتائج تقييم قوية باستخدام محولات مسبقا، وبالتالي تؤكد الأداة المساعدة العملة لمجموعة البيانات في أحادي التوتر مقابل تعدد اللغات، ومهمة واحدة مقابل إعدادات متعددة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا