Kawarith: كوربوس تويتر العربي لأحداث الأزمات


الملخص بالعربية

توفر منصات الوسائط الاجتماعية (SM) مثل Twitter كميات كبيرة من البيانات في الوقت الفعلي والتي يمكن الاستفادة منها أثناء حالات الطوارئ الجماعية. تتطلب تطوير أدوات لدعم المجتمعات المتأثرة بالأزمات مجموعات البيانات المتاحة، والتي غالبا ما تكون موجودة لغات الموارد المنخفضة. تقدم هذه الورقة Kawarith A Corpus عربي لهي تيتر من أجل أحداث الأزمات، تضم أكثر من مليون تغريدات عربية تم جمعها خلال 22 أزمات حدثت بين عامي 2018 و 2020 وشمل عدة أنواع من الخطر. كشف استكشاف هذا المحتوى عن أهم المواضيع وأنواع المعلومات، وتقدم الورقة مجموعة بيانات معدنية من سبعة أحداث طارئة تعمل كمعيار ذهبي للعديد من المهام في أبحاث المعلوماتية للأزمات. استخدام البيانات المشروحة من نفس الحدث، يكون نموذج BERT يتم ضبطه جيدا لتصنيف تغريدات إلى فئات مختلفة في الإعداد متعدد الملصقات. تظهر النتائج أن النماذج القائمة على بيرت تسفر عن أداء جيد في هذه المهمة حتى مع كميات صغيرة من بيانات التدريب الخاصة بمهام المهام.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث