ترغب بنشر مسار تعليمي؟ اضغط هنا

محولات ضبط الجميلة لتحديد القضايا المحتملة للإبلاغ عنها وأعراض Covid-19 في تغريدات

Fine-tuning Transformers for Identifying Self-Reporting Potential Cases and Symptoms of COVID-19 in Tweets

202   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن تصف نهجنا مباشرة إلى الأمام للمهام 5 و 6 من 2021 وسائل التواصل الاجتماعي Min - المهام المشتركة (SMM4H) المهام المشتركة.يعتمد نظامنا على DILLBERT الدقيقة على كل مهمة، وكذلك أولا ضبط النموذج على المهمة الأخرى.في هذه الورقة، نتكشف بالإضافة إلى ذلك مقدار التوصيل الدقيق ضروري لتصنيف التغريدات بدقة على النحو الذي يحتوي على أعراض Covid-19 المبلغ عنها ذاتيا (المهمة 5) أو ما إذا كانت سقسقة تتعلق Covid-19 هي التقارير الذاتية وغير الشخصية،أو أدب / أخبار ذكر الفيروس (المهمة 6).

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الدراسة تصميمنا النموذج المقترح لمهام SMM4H 2021 المشتركة.نحن نغلب النموذج اللغوي لمحولات روبرتا ومصنفهم التوصيل لإكمال مهام التصنيف في تغريدات لنتائج الحمل المعاكسة (المهمة 4) والحالات Covid-19 المحتملة (المهمة 5).متري التقييم هو درجة F1 للف ئة الإيجابية لكلا المهام.بالنسبة للمهمة 4، تجاوزت نقاط لدينا أفضل 0.93 درجة متوسط 0.925.بالنسبة للمهمة 5، تجاوزت أفضل ما بين 0.75 درجة متوسط 0.745.
العثور على مشاركات Covid-19 Information في مجرى تغريدات مفيدة للغاية لمراقبة التحديثات المتعلقة بالصحة.يعمل العمل السابق على إعداد بيانات متوازن وعلى اللغة الإنجليزية، ولكن تغريدات مفيدة نادرة، والإنجليزية ليست سوى واحدة من العديد من اللغات التي يتحد ث بها في العالم.في هذا العمل، نقدم مجموعة بيانات جديدة تبلغ 5000 تغريدات للعثور على تغريدات Covid-19 مفيدة لدنماركي.على عكس العمل المسبق، الذي يوازن بين توزيع الملصقات، نقوم بالنماذج المشكلة عن طريق الحفاظ على توزيعها الطبيعي.نحن ندرس مدى أداء نموذج الاحتمالية البسيط والشبكة العصبية التنافسية (CNN) في هذه المهمة.نجد CNN مرجح للعمل بشكل جيد ولكنها حساسة لتضمين وخيارات HyperParameter.نأمل أن تكون DataSet المساهمة نقطة انطلاق لمزيد من العمل في هذا الاتجاه.
وقد رافق انتشار Covid-19 بمعلومات مفاجئة واسعة النطاق بشأن وسائل التواصل الاجتماعي.على وجه الخصوص، شهد Twittercrive زيادة كبيرة في نشر الحقائق والأرقام المشوهة.يهدف هذا العمل الحالي إلى تحديد تغريدات بشأن CovID-19 التي تحتوي على معلومات ضارة وخاطئة.ل قد جربنا عددا من النماذج التعلم العميقة، بما في ذلك تضمين كلمة مختلفة، مثل القفازات، إلمو، من بين أمور أخرى.حقق نموذج Bertweet أفضل درجة F1 بشكل عام من 0.881 وأمنت المرتبة الثالثة على المهمة المذكورة أعلاه.
خلال الأشهر القليلة الماضية، كانت هناك أعداد هائلة من التغريدات المتداولة والمناقشات حول Vironavirus (Covid-19) في المنطقة العربية.من المهم لصانعي السياسات والعديد من الأشخاص تحديد أنواع التغريدات المشتركة لفهم السلوك العام بشكل أفضل، ومواضيع المصالح ، وطلبات الحكومات، ومصادر التغريدات، وما إلى ذلك. كما أنه من الأهمية بمكان انتشار شائعات وإضاءة في الفيروس أوعلاجات سيئة.تحقيقا لهذه الغاية، نقدم أكبر مجموعة بيانات مشروحة يدويا من تغريدات عربية تتعلق بالكوف (19).نحن تصف إرشادات التوضيحية، وتحليل DataSet لدينا وبناء نماذج التعلم والتحول في الآلات الفعالة للتصنيف.
إن جيل البيانات إلى النص (D2T) في المجال الطبي الطبيعي هو واعد - ولكن في الغالب غير مستكشفة - مجال البحث.هنا، نطبق النماذج العصبية لتوليد D2T إلى مجموعة بيانات حقيقية تتكون من منشورات الحزمة من الأدوية الأوروبية.نظهر أن المحولات التي تم ضبطها بشكل جي د قادرون على توليد نص واقعي متعدد الجملة من البيانات في المجال الطبي الطبيعي، ولكن لها قيود مهمة.ونحن نطلق أيضا عن مجموعة بيانات جديدة (bioileaflets) لنماذج جيل D2T القياسية في المجال الطبي الطبيعي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا