كان الهدف من هذا العمل هو إدخال نهج فعال يستند إلى نموذج اللغة العربية لمكافحة التغريدات Covid-19 InfoDemic.تم ترتيبها في شكل خط أنابيب من خطوتين، حيث تضمنت الخطوة الأولى سلسلة من إجراءات المعالجة المسبقة لتحويل Twitter Jargon، بما في ذلك الرموز التعبيرية والرموز، في نص عادي، واستغلت الخطوة الثانية نسخة من أرابيرت، والتيتم تدريب مسبقا على نص عادي، لضبط وتصنيف التغريدات فيما يتعلق بتسميةهم.كان استخدام نماذج اللغة المدربة مسبقا على النصوص العادية بدلا من الحصول على تغريدات من الضرورة لمعالجة قضايا نقدية مبينة من الأدبيات العلمية، وهي (1) نماذج اللغة المدربة مسبقا متوفرة على نطاق واسع في العديد من اللغات، وتجنب الوقت-Consuming والتدريب النموذجي المكثف من الموارد مباشرة على تغريدات من نقطة الصفر، مما يتيح التركيز فقط على ضبطه الجميل؛(2) النص العادي المتاح كورسا أكبر من تغريدة فقط، مما يسمح بأداء أفضل.
The objective of this work was the introduction of an effective approach based on the AraBERT language model for fighting Tweets COVID-19 Infodemic. It was arranged in the form of a two-step pipeline, where the first step involved a series of pre-processing procedures to transform Twitter jargon, including emojis and emoticons, into plain text, and the second step exploited a version of AraBERT, which was pre-trained on plain text, to fine-tune and classify the tweets with respect to their Label. The use of language models pre-trained on plain texts rather than on tweets was motivated by the necessity to address two critical issues shown by the scientific literature, namely (1) pre-trained language models are widely available in many languages, avoiding the time-consuming and resource-intensive model training directly on tweets from scratch, allowing to focus only on their fine-tuning; (2) available plain text corpora are larger than tweet-only ones, allowing for better performance.
المراجع المستخدمة
https://aclanthology.org/
نقدم النتائج والنتائج الرئيسية للمهام المشتركة NLP4IF-2021. تركز المهمة 1 على محاربة المعكرات المعاكسة 19 في وسائل التواصل الاجتماعي، وتم عرضها باللغة العربية والكبلانية والإنجليزية. بالنظر إلى تغريدة، طلبت التنبؤ بما إذا كانت هذه التغريدات تحتوي على
أصبح الانتشار الهائل للمعلومات الخاطئة عن وسائل التواصل الاجتماعي مخاطر عالمية خاصة في وضع جائحة عالمي مثل Covid-19. وبالتالي أصبح الكشف عن المعلومات الخاطئة موضوعا للأبحاث في الأشهر الأخيرة. في السنوات الأخيرة، تم استخدام نماذج تعلم الآلات الخاضعة ل
تصف هذه الورقة النموذج الفائز في المهمة المشتركة باللغة العربية NLP4IF لمحاربة المعكرية CovID-19.الهدف من المهمة المشتركة هو التحقق من التضليل حول Covid-19 في تغريدات عربية.تم تصنيف نموذجنا المقترح الأول مع درجة F1 من 0.780 ونتيجة دقة من 0.762.تم تجر
توفر هذه الورقة نظرة عامة مفصلة للنظام ونتائجها، والتي تم إنتاجها كجزء من المهمة المشتركة NLP4IF بشأن مكافحة المعكرات المعاكسة 19 في Naacl 2021. هذه المهمة تم إنجازها باستخدام مجموعة متنوعة من التقنيات.استخدمنا نماذج التمثيل النصية الحديثة للسياق الت
مع ظهور جائحة Covid-19، تم دمج الجوانب السياسية والطبية المتمثلة في التضليل حيث حصلت المشكلة على ارتفاع إلى مستوى جديد تماما لتصبح أول انفجار عالمي. تم إعلان محاربة هذا المعف النقود أحد أهم مجالات التركيز في منظمة الصحة العالمية، مع وجود مخاطر تتراوح