ترغب بنشر مسار تعليمي؟ اضغط هنا

في توحيد الكشف عن المعلومات الخاطئة

On Unifying Misinformation Detection

206   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقدم Unifiedm2، وهو نموذج معلومات فعال للأغراض العامة نماذج مشتركة مجالات متعددة من المعلومات الخاطئة مع إعداد واحد موحد.يتم تدريب النموذج على التعامل مع أربع مهام: اكتشاف تحيز الأخبار، Clicbait، أخبار وهمية، والتحقق من الشائعات.من خلال تجميع هذه المهام معا، يتعلم Unifiedm2 تمثيلا أكثر ثراء من المعلومات الخاطئة، مما يؤدي إلى أداء أحدث أو أداء مماثل في جميع المهام.علاوة على ذلك، نوضح أن التمثيل الموحد الذي تم تعلمه هو مفيد لعدد قليل من التعلم لمهام / مجموعات البيانات / مجموعات التضليلات غير المرئية وتعميمات النموذج للأحداث غير المرئية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقدم شائعات ARCOV19، ومجموعة بيانات عربية Covid-19 Twitter للكشف عن المعلومات الخاطئة المؤلفة من تغريدات تحتوي على مطالبات من 27 يناير حتى نهاية أبريل 2020. قمنا بجمع 138 مطالبات تم التحقق منها، معظمها من مواقع التحقق من الحقائق الشعبي ة، وحددنا 9.4K تغريدات ذات صلة مع تلك المطالبات. تم فحص التغريدات يدويا بفحصها يدويا لدعم البحوث حول الكشف عن المعلومات الخاطئة، وهي واحدة من المشاكل الرئيسية التي تواجهها خلال جائحة. تدعم شائعات ARCOV19 مستويين من الكشف عن المعلومات الخاطئة على Twitter: التحقق من مطالبات النص الحر (تسمى التحقق من مستوى المطالبة) والتحقق من المطالبات المعبر عنها في تغريدات (تسمى التحقق من مستوى التغريد). أغطية البيانات الخاصة بنا، بالإضافة إلى الصحة، والمطالبات المتعلقة بالفئات الموضعية الأخرى التي تأثرت بالكوفيد 19، وهي الاجتماعية والسياسة والرياضة والترفيه والدينية. علاوة على ذلك، فإننا نقدم نتائج مرجعية للتحقق من المستوى التغردد على DataSet. جربنا نماذج SOTA من النهج التنوعية التي إما استغلال المحتوى، وميزات ملفات تعريف المستخدمين، والميزات الزمنية وهيكل الانتشار من مؤشرات الترابط المحادثة للتحقق من تغريد التغريد.
نقدم مصنفات التعلم الآلية لتحديد المعلومات الخاطئة COVID-19 تلقائيا على وسائل التواصل الاجتماعي بثلاث لغات: الإنجليزية، البلغارية، والعربية.قمنا بمقارنة 4 نماذج تعليمية متعددة الأيتاكف لهذه المهمة ووجدت أن نموذج مدرب مع بيرت الإنجليزية يحقق أفضل النت ائج للغة الإنجليزية، وتحقق بيرت متعددة اللغات أفضل النتائج عن البلغارية والعربية.لقد جربنا لقطة صفرية، وقلة طرية، والظروف المستهدفة فقط لتقييم تأثير بيانات التدريب على اللغة المستهدفة حول أداء المصنف، وفهم قدرات نماذج مختلفة للتعميم عبر اللغات في الكشف عن المعلومات الخاطئة عبر الإنترنت.تم إجراء هذا العمل كإرسال إلى المهمة المشتركة، NLP4IF 2021: مكافحة المعكرات المعاكسة 19.حققت أفضل طرازاتنا ثاني أفضل نتائج اختبار التقييم في البلغارية والعربية بين جميع الفرق المشاركة وحصلت على درجات تنافسية للغة الإنجليزية.
إن انفجار مقالات أخبار الصحة عبر الإنترنت يدير مخاطر انتشار المعلومات ذات الجودة المنخفضة.ضمن العمل الحالي بشأن فحص الحقائق، ومع ذلك، فقد تم إيلاء اهتمام كبير نسبيا للأخبار الطبية.نقدم مهمة تصنيف الأخبار الصحية لتحديد ما إذا كانت المواد الإخبارية الط بية تلبي مجموعة من معايير المراجعة التي تعتبرها خبراء طبي وصحفيون الرعاية الصحية.نقدم مجموعة بيانات من 1،119 أخبار الصحة المقترنة مراجعات منهجية.تتكون معايير المراجعة من ستة عناصر ضرورية لدقة الأخبار الطبية.بعد ذلك، نقدم تجارب تقارن النهج الكلاسيكي القائم على الرمز المكون من النماذج القائمة على المحولات.تظهر نتائجنا أن الكشف عن الهفوات النوعية هي مهمة صعبة مع التداعيات المباشرة في المعلومات الخاطئة، ولكنها اتجاه مهم لمتابعة ما بعد تخصيص الملصقات الحقيقية أو المزيفة إلى مطالبات قصيرة.
بصرف النظر عن نجاح نهج تعلم النطاق المختلط في مجال التعلم العميق لحل المهام المختلفة لمعالجة اللغة الطبيعية، فإنه لا يقرض حل جماعيا للكشف عن المعلومات الخاطئة من بيانات وسائل التواصل الاجتماعي CovID-19. نظرا للتعقيد المتأصل من هذا النوع من البيانات، الناجمة عن ديناميك (سياقه يتطور بسرعة)، ذات الطابع الدقيق (أنواع الخائن غير غامضة في كثير من الأحيان)، ومتنوعة (الفئات المنحيحة، المحبوسة والتداخل) الطبيعة، من الضروري نموذج فعال لالتقاط كل من السياق المحلي والعالمي للمجال المستهدف. من خلال إجراء تحقيق منهجي، نظهر أن: (1) النماذج المدربة مسبقا مسبقا للمحولات العميقة، المستخدمة عبر تعلم نقل المجال المختلط، جيدة فقط في التقاط السياق المحلي، وبالتالي تظهر تعميم ضعيف، و (2) يمكن أن يستخرج مزيج من النماذج الضحلة المستندة إلى الشبكة والشبكات العصبية التنافسية السياق محليا بالإضافة إلى السياق بشكل فعال بالإضافة إلى البيانات المستهدفة بطريقة هرمية بطريقة هرمية، مما يتيح من تقديم حل أكثر تعميما.
وقد رافق انتشار Covid-19 بمعلومات مفاجئة واسعة النطاق بشأن وسائل التواصل الاجتماعي.على وجه الخصوص، شهد Twittercrive زيادة كبيرة في نشر الحقائق والأرقام المشوهة.يهدف هذا العمل الحالي إلى تحديد تغريدات بشأن CovID-19 التي تحتوي على معلومات ضارة وخاطئة.ل قد جربنا عددا من النماذج التعلم العميقة، بما في ذلك تضمين كلمة مختلفة، مثل القفازات، إلمو، من بين أمور أخرى.حقق نموذج Bertweet أفضل درجة F1 بشكل عام من 0.881 وأمنت المرتبة الثالثة على المهمة المذكورة أعلاه.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا