ترغب بنشر مسار تعليمي؟ اضغط هنا

ARCOV19-الشائعات: عربي كوفي 19 Twitter DataSet للكشف عن المعلومات الخاطئة

ArCOV19-Rumors: Arabic COVID-19 Twitter Dataset for Misinformation Detection

294   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقدم شائعات ARCOV19، ومجموعة بيانات عربية Covid-19 Twitter للكشف عن المعلومات الخاطئة المؤلفة من تغريدات تحتوي على مطالبات من 27 يناير حتى نهاية أبريل 2020. قمنا بجمع 138 مطالبات تم التحقق منها، معظمها من مواقع التحقق من الحقائق الشعبية، وحددنا 9.4K تغريدات ذات صلة مع تلك المطالبات. تم فحص التغريدات يدويا بفحصها يدويا لدعم البحوث حول الكشف عن المعلومات الخاطئة، وهي واحدة من المشاكل الرئيسية التي تواجهها خلال جائحة. تدعم شائعات ARCOV19 مستويين من الكشف عن المعلومات الخاطئة على Twitter: التحقق من مطالبات النص الحر (تسمى التحقق من مستوى المطالبة) والتحقق من المطالبات المعبر عنها في تغريدات (تسمى التحقق من مستوى التغريد). أغطية البيانات الخاصة بنا، بالإضافة إلى الصحة، والمطالبات المتعلقة بالفئات الموضعية الأخرى التي تأثرت بالكوفيد 19، وهي الاجتماعية والسياسة والرياضة والترفيه والدينية. علاوة على ذلك، فإننا نقدم نتائج مرجعية للتحقق من المستوى التغردد على DataSet. جربنا نماذج SOTA من النهج التنوعية التي إما استغلال المحتوى، وميزات ملفات تعريف المستخدمين، والميزات الزمنية وهيكل الانتشار من مؤشرات الترابط المحادثة للتحقق من تغريد التغريد.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم مجموعة بيانات Arcov-19، وهي مجموعة بيانات عربية Covid-19 Twitter التي تمتد لمدة عام واحد، تغطي الفترة من 27 يناير 2020 حتى 31 يناير 2021. Arcov-19 هي أول مجموعة بيانات عربية تويتر العربية التي تغطي كوفي -19 الوباء يتضمن حوالي 2.7 مليون تغريدات إلى جانب شبكات الانتشار الفرعية الأكثر شعبية منهم (أي معاد تغريدها ومعاد تغريدها). تشمل شبكات الانتشار كلا من إعادة تغريد مؤشرات الترابط المحادثة (I.E.، خيوط الردود). تم تصميم Arcov-19 لتمكين البحث بموجب عدة مجالات بما في ذلك معالجة اللغة الطبيعية واسترجاع المعلومات والحوسبة الاجتماعية. يوضح التحليل الأولي أن ARCOV-19 يلتقط المناقشات المتصاعدة المرتبطة بأول حالات المرض المبلغ عنها حيث ظهرت في العالم العربي. بالإضافة إلى التغريدات المصدر وشبكات الانتشار، نطلق أيضا استعلامات البحث والزاحف المستقلة للغة تستخدم لجمع التغريدات لتشجيع علمن مجموعات البيانات مماثلة.
بصرف النظر عن نجاح نهج تعلم النطاق المختلط في مجال التعلم العميق لحل المهام المختلفة لمعالجة اللغة الطبيعية، فإنه لا يقرض حل جماعيا للكشف عن المعلومات الخاطئة من بيانات وسائل التواصل الاجتماعي CovID-19. نظرا للتعقيد المتأصل من هذا النوع من البيانات، الناجمة عن ديناميك (سياقه يتطور بسرعة)، ذات الطابع الدقيق (أنواع الخائن غير غامضة في كثير من الأحيان)، ومتنوعة (الفئات المنحيحة، المحبوسة والتداخل) الطبيعة، من الضروري نموذج فعال لالتقاط كل من السياق المحلي والعالمي للمجال المستهدف. من خلال إجراء تحقيق منهجي، نظهر أن: (1) النماذج المدربة مسبقا مسبقا للمحولات العميقة، المستخدمة عبر تعلم نقل المجال المختلط، جيدة فقط في التقاط السياق المحلي، وبالتالي تظهر تعميم ضعيف، و (2) يمكن أن يستخرج مزيج من النماذج الضحلة المستندة إلى الشبكة والشبكات العصبية التنافسية السياق محليا بالإضافة إلى السياق بشكل فعال بالإضافة إلى البيانات المستهدفة بطريقة هرمية بطريقة هرمية، مما يتيح من تقديم حل أكثر تعميما.
نقدم مصنفات التعلم الآلية لتحديد المعلومات الخاطئة COVID-19 تلقائيا على وسائل التواصل الاجتماعي بثلاث لغات: الإنجليزية، البلغارية، والعربية.قمنا بمقارنة 4 نماذج تعليمية متعددة الأيتاكف لهذه المهمة ووجدت أن نموذج مدرب مع بيرت الإنجليزية يحقق أفضل النت ائج للغة الإنجليزية، وتحقق بيرت متعددة اللغات أفضل النتائج عن البلغارية والعربية.لقد جربنا لقطة صفرية، وقلة طرية، والظروف المستهدفة فقط لتقييم تأثير بيانات التدريب على اللغة المستهدفة حول أداء المصنف، وفهم قدرات نماذج مختلفة للتعميم عبر اللغات في الكشف عن المعلومات الخاطئة عبر الإنترنت.تم إجراء هذا العمل كإرسال إلى المهمة المشتركة، NLP4IF 2021: مكافحة المعكرات المعاكسة 19.حققت أفضل طرازاتنا ثاني أفضل نتائج اختبار التقييم في البلغارية والعربية بين جميع الفرق المشاركة وحصلت على درجات تنافسية للغة الإنجليزية.
وقد رافق انتشار Covid-19 بمعلومات مفاجئة واسعة النطاق بشأن وسائل التواصل الاجتماعي.على وجه الخصوص، شهد Twittercrive زيادة كبيرة في نشر الحقائق والأرقام المشوهة.يهدف هذا العمل الحالي إلى تحديد تغريدات بشأن CovID-19 التي تحتوي على معلومات ضارة وخاطئة.ل قد جربنا عددا من النماذج التعلم العميقة، بما في ذلك تضمين كلمة مختلفة، مثل القفازات، إلمو، من بين أمور أخرى.حقق نموذج Bertweet أفضل درجة F1 بشكل عام من 0.881 وأمنت المرتبة الثالثة على المهمة المذكورة أعلاه.
في هذه الورقة، نقدم Unifiedm2، وهو نموذج معلومات فعال للأغراض العامة نماذج مشتركة مجالات متعددة من المعلومات الخاطئة مع إعداد واحد موحد.يتم تدريب النموذج على التعامل مع أربع مهام: اكتشاف تحيز الأخبار، Clicbait، أخبار وهمية، والتحقق من الشائعات.من خلا ل تجميع هذه المهام معا، يتعلم Unifiedm2 تمثيلا أكثر ثراء من المعلومات الخاطئة، مما يؤدي إلى أداء أحدث أو أداء مماثل في جميع المهام.علاوة على ذلك، نوضح أن التمثيل الموحد الذي تم تعلمه هو مفيد لعدد قليل من التعلم لمهام / مجموعات البيانات / مجموعات التضليلات غير المرئية وتعميمات النموذج للأحداث غير المرئية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا