ترغب بنشر مسار تعليمي؟ اضغط هنا

نارنيا في NLP4IF-2021: تحديد المعلومات الخاطئة في تغريدات CovID-19 باستخدام Bertweet

NARNIA at NLP4IF-2021: Identification of Misinformation in COVID-19 Tweets Using BERTweet

194   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

وقد رافق انتشار Covid-19 بمعلومات مفاجئة واسعة النطاق بشأن وسائل التواصل الاجتماعي.على وجه الخصوص، شهد Twittercrive زيادة كبيرة في نشر الحقائق والأرقام المشوهة.يهدف هذا العمل الحالي إلى تحديد تغريدات بشأن CovID-19 التي تحتوي على معلومات ضارة وخاطئة.لقد جربنا عددا من النماذج التعلم العميقة، بما في ذلك تضمين كلمة مختلفة، مثل القفازات، إلمو، من بين أمور أخرى.حقق نموذج Bertweet أفضل درجة F1 بشكل عام من 0.881 وأمنت المرتبة الثالثة على المهمة المذكورة أعلاه.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

توفر هذه الورقة نظرة عامة مفصلة للنظام ونتائجها، والتي تم إنتاجها كجزء من المهمة المشتركة NLP4IF بشأن مكافحة المعكرات المعاكسة 19 في Naacl 2021. هذه المهمة تم إنجازها باستخدام مجموعة متنوعة من التقنيات.استخدمنا نماذج التمثيل النصية الحديثة للسياق الت ي كانت تم ضبطها بشكل جيد لمهمة المصب في متناول اليد.تم استخدام Arbert، Marbert، أرابيرت، ألبرت العربي وألبرت والقاعدة العربية.وفقا للنتائج، كان لدى Bert-Base-Arabic أعلى درجة 0.784 F1 في مجموعة الاختبار.
تصف هذه الورقة النموذج الفائز في المهمة المشتركة باللغة العربية NLP4IF لمحاربة المعكرية CovID-19.الهدف من المهمة المشتركة هو التحقق من التضليل حول Covid-19 في تغريدات عربية.تم تصنيف نموذجنا المقترح الأول مع درجة F1 من 0.780 ونتيجة دقة من 0.762.تم تجر بة مجموعة متنوعة من النماذج اللغوية المدربة المستندة إلى المحولات من خلال هذه الدراسة.يعد النموذج الأفضل سجل فرقة من نماذج عربيرت والقاعدة في عربيه، وأربرت.تتمثل إحدى النتائج الرئيسية في الدراسة في إظهار التأثير يمكن أن يكون للمعالجة المسبقة في درجة كل نموذج.بالإضافة إلى وصف النموذج الفائز، تظهر الدراسة الحالية تحليل الأخطاء.
بصرف النظر عن نجاح نهج تعلم النطاق المختلط في مجال التعلم العميق لحل المهام المختلفة لمعالجة اللغة الطبيعية، فإنه لا يقرض حل جماعيا للكشف عن المعلومات الخاطئة من بيانات وسائل التواصل الاجتماعي CovID-19. نظرا للتعقيد المتأصل من هذا النوع من البيانات، الناجمة عن ديناميك (سياقه يتطور بسرعة)، ذات الطابع الدقيق (أنواع الخائن غير غامضة في كثير من الأحيان)، ومتنوعة (الفئات المنحيحة، المحبوسة والتداخل) الطبيعة، من الضروري نموذج فعال لالتقاط كل من السياق المحلي والعالمي للمجال المستهدف. من خلال إجراء تحقيق منهجي، نظهر أن: (1) النماذج المدربة مسبقا مسبقا للمحولات العميقة، المستخدمة عبر تعلم نقل المجال المختلط، جيدة فقط في التقاط السياق المحلي، وبالتالي تظهر تعميم ضعيف، و (2) يمكن أن يستخرج مزيج من النماذج الضحلة المستندة إلى الشبكة والشبكات العصبية التنافسية السياق محليا بالإضافة إلى السياق بشكل فعال بالإضافة إلى البيانات المستهدفة بطريقة هرمية بطريقة هرمية، مما يتيح من تقديم حل أكثر تعميما.
نقدم النتائج والنتائج الرئيسية للمهام المشتركة NLP4IF-2021. تركز المهمة 1 على محاربة المعكرات المعاكسة 19 في وسائل التواصل الاجتماعي، وتم عرضها باللغة العربية والكبلانية والإنجليزية. بالنظر إلى تغريدة، طلبت التنبؤ بما إذا كانت هذه التغريدات تحتوي على مطالبة يمكن التحقق منها، وإذا كان الأمر كذلك، فمن المحتمل أن تكون خاطئة، من المحتمل أن تكون ذات مصلحة عامة، من المرجح أن تكون ضارة، وتستحق التحقق من الحقائق اليدوية؛ أيضا، سواء كان ضارا بالمجتمع، وما إذا كان يتطلب انتباه صانعي السياسات. المهمة 2 التي تركز على كشف الرقابة، وتم عرضها باللغة الصينية. ما مجموعه عشرة فرق تقدم أنظمة للمهمة 1، وشارك فريق واحد في المهمة 2؛ قدمت تسعة فرق أيضا ورقة وصف للنظام. هنا، نقدم المهام، وتحليل النتائج، ومناقشة طلبات النظام والأساليب التي استخدموها. حققت معظم التقديمات تحسينات كبيرة على العديد من خطوط الأساس، وأفضل أنظمة تستخدم المحولات المدربة مسبقا وفرق. تتوفر البيانات، والهدوشات ومصدرها للمهام على http://gitlab.com/nlp4if/nlp4if-2021.
نقدم مصنفات التعلم الآلية لتحديد المعلومات الخاطئة COVID-19 تلقائيا على وسائل التواصل الاجتماعي بثلاث لغات: الإنجليزية، البلغارية، والعربية.قمنا بمقارنة 4 نماذج تعليمية متعددة الأيتاكف لهذه المهمة ووجدت أن نموذج مدرب مع بيرت الإنجليزية يحقق أفضل النت ائج للغة الإنجليزية، وتحقق بيرت متعددة اللغات أفضل النتائج عن البلغارية والعربية.لقد جربنا لقطة صفرية، وقلة طرية، والظروف المستهدفة فقط لتقييم تأثير بيانات التدريب على اللغة المستهدفة حول أداء المصنف، وفهم قدرات نماذج مختلفة للتعميم عبر اللغات في الكشف عن المعلومات الخاطئة عبر الإنترنت.تم إجراء هذا العمل كإرسال إلى المهمة المشتركة، NLP4IF 2021: مكافحة المعكرات المعاكسة 19.حققت أفضل طرازاتنا ثاني أفضل نتائج اختبار التقييم في البلغارية والعربية بين جميع الفرق المشاركة وحصلت على درجات تنافسية للغة الإنجليزية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا