في هذه الورقة، نقدم شائعات ARCOV19، ومجموعة بيانات عربية Covid-19 Twitter للكشف عن المعلومات الخاطئة المؤلفة من تغريدات تحتوي على مطالبات من 27 يناير حتى نهاية أبريل 2020. قمنا بجمع 138 مطالبات تم التحقق منها، معظمها من مواقع التحقق من الحقائق الشعبية، وحددنا 9.4K تغريدات ذات صلة مع تلك المطالبات. تم فحص التغريدات يدويا بفحصها يدويا لدعم البحوث حول الكشف عن المعلومات الخاطئة، وهي واحدة من المشاكل الرئيسية التي تواجهها خلال جائحة. تدعم شائعات ARCOV19 مستويين من الكشف عن المعلومات الخاطئة على Twitter: التحقق من مطالبات النص الحر (تسمى التحقق من مستوى المطالبة) والتحقق من المطالبات المعبر عنها في تغريدات (تسمى التحقق من مستوى التغريد). أغطية البيانات الخاصة بنا، بالإضافة إلى الصحة، والمطالبات المتعلقة بالفئات الموضعية الأخرى التي تأثرت بالكوفيد 19، وهي الاجتماعية والسياسة والرياضة والترفيه والدينية. علاوة على ذلك، فإننا نقدم نتائج مرجعية للتحقق من المستوى التغردد على DataSet. جربنا نماذج SOTA من النهج التنوعية التي إما استغلال المحتوى، وميزات ملفات تعريف المستخدمين، والميزات الزمنية وهيكل الانتشار من مؤشرات الترابط المحادثة للتحقق من تغريد التغريد.
In this paper we introduce ArCOV19-Rumors, an Arabic COVID-19 Twitter dataset for misinformation detection composed of tweets containing claims from 27th January till the end of April 2020. We collected 138 verified claims, mostly from popular fact-checking websites, and identified 9.4K relevant tweets to those claims. Tweets were manually-annotated by veracity to support research on misinformation detection, which is one of the major problems faced during a pandemic. ArCOV19-Rumors supports two levels of misinformation detection over Twitter: verifying free-text claims (called claim-level verification) and verifying claims expressed in tweets (called tweet-level verification). Our dataset covers, in addition to health, claims related to other topical categories that were influenced by COVID-19, namely, social, politics, sports, entertainment, and religious. Moreover, we present benchmarking results for tweet-level verification on the dataset. We experimented with SOTA models of versatile approaches that either exploit content, user profiles features, temporal features and propagation structure of the conversational threads for tweet verification.
المراجع المستخدمة
https://aclanthology.org/