ترغب بنشر مسار تعليمي؟ اضغط هنا

BERT GOAN BRRR: مشروعا تجاه خطأ أقل في تصنيف مراسلين ذوي الذات الطبي على تويتر

BERT Goes Brrr: A Venture Towards the Lesser Error in Classifying Medical Self-Reporters on Twitter

330   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة تقديم فريقنا من أجل تعدين وسائل التواصل الاجتماعي للصحة (SMM4H) 2021 المهمة المشتركة.شاركنا في ثلاث مجموعات فرعية: تصنيف تأثير المخدرات السلبي، والتقرير الذاتي Covid-19، وأعراض Covid-19.يعتمد نظامنا على نموذج Bert المدرب مسبقا على النص الخاص بالمجال.بالإضافة إلى ذلك، نقوم بإجراء تنظيف البيانات والتكبير، بالإضافة إلى تحسين فرط التنفس وفرقة نموذجية لتعزيز أداء بيرت.حققنا الرتبة الأولى في كل من تأثيرات المخدرات الضارة ومهام التقرير الذاتي CovID-19.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

قمنا بإحضار البيانات من صفحات مواقع التواصل الاجتماعي تويتر، ثم عملنا عليها عملية تنظيف و تجهيز للنص من أجل عملية التصنيف فالنصوص المسترجعة تحتوي على الكثير من الضجيج و المعلومات غير المفيدة المتعلقة بعملية تحليل الآراء مثل الاعلانات و الروابط و ع ناوين البريد الالكتروني و وجود العديد من الكلمات التي لا تؤثر على التوجه العام للنص، و بعد الحصول على كل المنشورات في صفحة الفيسبوك و ما هي التعليقات الخاصة حول كل المنشور المراد معرفة النسبة المئوية للآراء الإيجابية و الآراء السلبية له. طبّقنا خوارزمية بايز في التصنيف و أجرينا عليها التدريب المناسب و بعد تمرير بيانات التغريدات (الآراء) حصلنا على نتائج جيدة حول نسبة المؤيدين للمنشور و نسبة المعارضين له.
الكشف عن اللغة الهجومية على Twitter لديها العديد من التطبيقات التي تتراوح من الكشف / التنبؤ بالتنبؤ لقياس الاستقطاب.في هذه الورقة، نركز على بناء مجموعة بيانات تغريدة عربية كبيرة.نقدم طريقة لبناء مجموعة بيانات غير متحيزة حسب الموضوع أو اللهجة أو الهدف .نحن ننتج أكبر مجموعة بيانات عربية حتى الآن مع علامات خاصة لخطاب الاداءات والكراهية.نحن نحلل تماما مجموعة البيانات لتحديد الموضوعات واللهجات والجنس الأكثر ترتبط أكثر من التغريدات الهجومية وكيفية استخدام المتحدثين باللغة العربية اللغة.أخيرا، نقوم بإجراء العديد من التجارب لإنتاج نتائج قوية (F1 = 83.2) على مجموعة البيانات باستخدام تقنيات SOTA.
كانت الانتخابات الأمريكية 2020، أكثر من أي وقت مضى، تتميز بحملات وسائل التواصل الاجتماعي والاتهامات المتبادلة. نحن نحقق في هذه الورقة إذا كان هذا يتجلى أيضا في الاتصالات عبر الإنترنت من مؤيدي المرشحين بايدن وترامب، من خلال نطق التواصل البغيض والهجومي . نقوم بصياغة مهمة توضيحية، نمتلك فيها مهام الكشف عن الكلام والموقف البغيضة / الهجومية، والاحليق على 3000 تغريدات من فترة الحملة، إذا أعربوا عن موقف معين تجاه المرشح. بجانب الطبقات المنشأة المتميزة من مواتية وضد، نقوم بإضافة مواقف مختلطة ومحايدة وأوضح أيضا إذا تم ذكر مرشح تعبير الرأي. علاوة على ذلك، نحن نلاحظ إذا كانت سقسقة مكتوبة بأسلوب مسيء. وهذا يتيح لنا أن نحلل إذا كان مؤيدو جو بايدن والحزب الديمقراطي يتواصلون بشكل مختلف عن أنصار دونالد ترامب والحزب الجمهوري. يوضح مصنف Bert Baseline أن الكشف إذا كان شخص ما مؤيد للمرشح يمكن إجراء جودة عالية ( (.79 F1 و .64 F1، على التوالي). لا يزال الكشف التلقائي لخطاب الكراهية / الهجومية تحديا (مع .53 F1). تتمتع كوربوس لدينا علنا ​​وتشكل مصدرا جديدا للنمذجة الحسابية للغة الهجومية قيد النظر في المواقف.
من المعروف أن طريقة المزيج (تشانغ وآخرون، 2017)، واحدة من أساليب تكبير البيانات، من المعروف أنها سهلة التنفيذ والفعالة للغاية. على الرغم من أن طريقة المزيج مخصصة لتحديد الصور، إلا أنه يمكن تطبيقه أيضا على معالجة اللغة الطبيعية. في هذه الورقة، نحاول ت طبيق طريقة المزيج إلى مهمة تصنيف المستندات باستخدام تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) (ديفلين وآخرون، 2018). نظرا لأن Bert يسمح بإدخال الإصدارين من الجملة، فإننا نسقط تسلسل الكلمات من مستندتين مع ملصقتين مختلفتين واستخدمت الإخراج متعدد الفصول كبيانات خاضعة للإشراف مع ناقل ساخن واحد. في تجربة باستخدام Corpus أخبار Livedoor، وهي اليابانية، قارننا دقة تصنيف المستندات باستخدام طريقتين لاختيار المستندات المراد متسلسلا بتصنيف المستندات العادي. نتيجة لذلك، وجدنا أن الطريقة المقترحة أفضل من التصنيف العادي عند خلط المستندات التي تحتوي على نقص التسميات بشكل تفضيلي. يشير هذا إلى أن كيفية اختيار مستندات المزيج لها تأثير كبير على النتائج.
يطلب عملاء أنظمة التعلم الآلية المساءلة من الشركات التي توظف هذه الخوارزميات لمهام التنبؤ المختلفة. تتطلب المساءلة فهم حدود النظام وحالة التنبؤات الخاطئة، حيث غالبا ما يهتم العملاء بفهم التنبؤات غير الصحيحة، يتم امتصاص المطورين النموذجيين في العثور ع لى طرق يمكن استخدامها للحصول على تحسينات تدريجية على نظام موجود. لذلك، نقترح طريقة توصيف خطأ مسؤولة، AEC، لفهم متى وحيث تحدث الأخطاء ضمن النماذج النسخة السوداء الموجودة. يسمح AEC، كما شيدت مع ميزات لغوية مفهومة للإنسان، المطورين النموذجيين لتحديد المصادر الرئيسية تلقائيا من الأخطاء لنظام تصنيف معين. يمكن استخدامه أيضا للعينة لمجموعة نقاط الإدخال الأكثر تفاعيمية في الجولة التالية من التدريب. نقوم بإجراء اكتشاف خطأ لمهمة تحليل المعنويات باستخدام AEC كدراسة حالة. تظهر نتائجنا على مهمة مشاعر العينة أن AEC قادر على تمييز التنبؤات الخاطئة في فئات غير قابلة للفطرة البشرية وتحقق أيضا نتائج واعدة على اختيار العينات الخاطئة بالمقارنة مع أخذ العينات القائمة على عدم اليقين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا