ترغب بنشر مسار تعليمي؟ اضغط هنا

Hamiltondingggg في مهمة Semeval-2021: التحقيق في اكتشاف SPAN SPAN باستخدام روبرتا قبل التدريب

HamiltonDinggg at SemEval-2021 Task 5: Investigating Toxic Span Detection using RoBERTa Pre-training

202   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة تقديم نظامنا إلى المهمة 5: تمثل المسابقة السامة من مسابقة Semeval-2021.تهدف المنافسة إلى اكتشاف الجرف الذي يصنع سامة سامة.في هذه الورقة، نوضح نظامنا للكشف عن المواقف السامة، والتي تشمل توسيع نطاق التدريب السام الذي تم تعيينه مع تفسيرات نموذجية غير مرغوية للطراز المحلي (الجير)، وطيب الروبيرتا الناعم للكشف، وتحليل الأخطاء.وجدنا أن إطعام النموذج مع مجموعة تدريبية موسعة باستخدام تعليقات Reddit من السماد المستقطب والسمية مع الجير على رأس تصنيف الانحدار اللوجستي يمكن أن يساعد روبرتا على تعلم أكثر دقة التعرف على الأمور السامة.حققنا درجة F1 المستفادة من 0.6715 على مرحلة الاختبار.تظهر نتائجنا الكمية والنوعية أن التنبؤات من نظامنا يمكن أن تكون ملحقا جيدا لشروح مجموعة تدريب الذهب.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

توضح هذه الورقة النظام الذي طوره مركز أنتويرب للعلوم الإنسانية الرقمية والنقد الأدبي [UANTWERP] للكشف عن السامة.استخدمنا مجموعة تعميم مكدسة من خمسة نماذج مكونة، مع تفسيرات مميزة للمهمة.حاولت نماذج التنبؤ بتسمم سمية الكلمات الثنائية بناء على تسلسل الن جرام، بينما تم تدريب 3 نماذج قاسية قائمة على أساس أن توقع ملصقات رمزية سامة بناء على الرموز التسلسلية الكاملة.تم فرك تنبؤات النماذج الخمس داخل نموذج LSTM.بالإضافة إلى وصف النظام، نقوم بإجراء تحليل الأخطاء لاستكشاف الأداء النموذجي فيما يتعلق بالميزات النصية.سجل النظام الموصوف في هذه الورقة 0.6755 واحتل المرتبة 26.
السمية منتشرة في وسائل التواصل الاجتماعي وتشكل تهديدا كبيرا لصحة المجتمعات عبر الإنترنت.أدت مقدمة أحدث نماذج اللغة المدربة مسبقا، والتي حققت نتائج أحدث من المهام في العديد من المهام NLP، الطريقة التي نقترب بها معالجة اللغة الطبيعية.ومع ذلك، فإن الطبي عة الكامنة للتدريب المسبق تعني أنها من غير المرجح أن تلتقط المعلومات الإحصائية الخاصة بمهام المهام أو تعلم المعرفة الخاصة بالمجال.بالإضافة إلى ذلك، لا تستخدم معظم تطبيقات هذه النماذج الحقول العشوائية الشرطية، وهي طريقة لتصنيف الرمز المميز في وقت واحد.نظظ أن هذه التعديلات يمكن أن تحسن الأداء النموذجي على مهمة الكشف عن المسافة السامة في Semeval-2021 لتحقيق درجة في غضون 4 نقاط مئوية من أعلى فريق الأداء.
تقدم هذه المقالة وصف نظام فريق المحور، الذي يفسر العمل ذي الصلة والنتائج التجريبية لمشاركة فريقنا في مهمة Semeval 2021 5: الكشف السام يمتد.تأتي بيانات هذه المهمة المشتركة من بعض المشاركات على الإنترنت.الهدف المهمة هو تحديد المحتوى السام الوارد في هذه البيانات النصية.نحتاج إلى إيجاد فترة النص السام في البيانات النصية بدقة قدر الإمكان.في نفس المنصب، قد يكون النص السام فقيرا واحدا أو فقرات متعددة.يستخدم فريقنا مخطط التصنيف بناء على مستوى Word لإنجاز هذه المهمة.النظام الذي اعتدنا على تقديم النتائج هو Albert + Bilstm + CRF.مؤشر تقييم النتيجة لتقديم المهمة هو درجة F1، والنتيجة النهائية للنتيجة التنبؤية لمجموعة الاختبار المقدمة من فريقنا هي 0.6640226029.
تتطلب مهمة الكشف عن المسافة السامة في Semeval-2021 المشاركين الذين يتعين على المشاركين التنبؤ بالوظائف السامة التي كانت مسؤولة عن الملصق السام للوظائف.يمكن معالجة المهمة كمصموع تسلسل إشراف، باستخدام بيانات التدريب مع يمتد سامة الذهب المقدمة من المنظم ين.يمكن التعامل معها أيضا على أنها استخراج الأساس المنطقي، باستخدام مصنفات مدربين على مجموعات بيانات خارجية أكبر من الوظائف المشروحة يدويا على أنها سامة أم لا، دون شروح سامةبالنسبة لنهج وضع التسلسل الإشرافي وأغراض التقييم، كانت الوظائف التي سبق وصفها بأنها سامة مشروحة من أشكال الجماهير السامة.قدم المشاركون يمتدين المتوقعين من أجل مجموعة اختبار محمولة وسجلوا باستخدام F1 القائمة على الطابع.يلخص النظرة نظرة عامة عمل الفرق 36 التي قدمت أوصاف النظام.
تم استخدام الشبكات العصبية المتكررة على نطاق واسع في مهام معالجة اللغة الطبيعية المختلفة (NLP) مثل تصنيف النص وعلامات التسلسل والترجمة الآلية.ذاكرة طويلة الأجل طويلة الأجل (LSTM)، وهي وحدة خاصة من RNN، لديها فائدة من حفظ المعلومات السابقة وحتى المستق بل في جملة (خاصة بالنسبة ل LSTM ثنائي الاتجاه).في المهمة المشتركة المتمثلة في اكتشاف الممتد، مما يجعل النصوص سامة، نقوم أولا بتطبيق تضمين الكلمة المسبقة (القفازات) لتوليد مجاهاجر الكلمة بعد التوت.ثم نقوم ببناء نموذج عشوائي طويل الأجل طويل الأجل الطويل الأجل (BI-LSTM-CRF) نموذج بحوث بايدو للتنبؤ بما إذا كانت كل كلمة في الجملة سامة أم لا.نحن نغلق فرط HyperParameters من معدل التسرب، وعدد وحدات LSTM، وتضمين حجم مع 10 حفلات واختيار أفضل عصر مع استدعاء التحقق من الصحة.لدينا نموذج يحقق درجة F1 من 66.99 في المئة في Dataset اختبار.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا