ترغب بنشر مسار تعليمي؟ اضغط هنا

UTNLP في مهمة Semeval-2021: تحليل مقارن للكشف عن المكشوف السامة باستخدام الاهتمام، والاعتراف الكياني المسمى، ونماذج الفرقة

UTNLP at SemEval-2021 Task 5: A Comparative Analysis of Toxic Span Detection using Attention-based, Named Entity Recognition, and Ensemble Models

306   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

اكتشاف أجزاء من الجملة المساهمة في سمية الجملة - - بدلا من توفير حكم على مستوى الجملة من البهمة --- من شأنه أن يزيد من تفسير النماذج والسماح للمشرفين البشري بفهم نواتج النظام بشكل أفضل.تقدم هذه الورقة فريقنا، UTNLP، منهجية ونتائج المهمة المشتركة SEMEVAL-2021 5 على الكشف عن الأمور السامة.نقوم باختبار نماذج متعددة وإدارات سياقية وأبلغ عن أفضل الإعداد من الجميع.تبدأ التجارب بنماذج قائمة على الكلمات الرئيسية ويتبعها نماذج القائم على الكيانات المستندة إلى الكيانات المستندة إلى مجال الانتباه، والتي تستند إلى الكيانات المستندة إلى الكيان ومقرها المحولات.أفضل نهجنا، نموذج الفرقة، يحقق F1 من 0.684 في مرحلة تقييم المسابقة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة مشاركة فريق سيناء في المهمة 5: الكشف عن الأمور السامة التي تتكون من تحديد المواقف التي تجعل النص سام.على الرغم من أن العديد من الموارد والأنظمة قد تم تطويرها حتى الآن في سياق اللغة الهجومية، ركزت كل من التوضيحية والمهام بشكل رئيسي على تصنيف ما إذا كان النص مسيء أم لا.ومع ذلك، فإن اكتشاف المواقف السامة أمر بالغ الأهمية لتحديد سبب وجود نص سام ويمكنه مساعدة المشرفين البشري لتحديد موقع هذا النوع من المحتوى على وسائل التواصل الاجتماعي.من أجل إنجاز المهمة، نتبع نهجا عميقا قائم على التعلم باستخدام متغير ثنائي الاتجاه لشبكة ذاكرة طويلة الأجل طويلة إلى جانب طبقة فكري حقل عشوائية مشروطة (Bilstm-CRF).على وجه التحديد، نختبر أداء مزيج من مختلف تضمين الكلمة المدربة مسبقا للتعرف على الكيانات السامة في النص.تظهر النتائج أن مزيج من Adgeddings يساعد في اكتشاف المحتوى الهجومي.يرتب فريقنا 29 من أصل 91 مشاركا.
غالبا ما تكون اللغة السامة موجودة في المنتديات عبر الإنترنت، خاصة عندما تنشأ السياسة وغيرها من الموضوعات الاستقطابية، ويمكن أن تؤدي إلى أن يصبحوا محبطين من الانضمام إلى المحادثات أو الاستمرار فيها.في هذه الورقة، نستخدم البيانات التي تتألف من تعليقات مع مؤشرات النص السام المسمى لتدريب RNN لردع الألغام التي تجعلها أجزاء من التعليقات تجعلها سامة، والتي يمكن أن تساعد المشرفين عبر الإنترنت.نقارن النتائج باستخدام مجموعة البيانات الأصلية ومجموعة معدات، وكذلك نماذج Gru مقابل LSTM RNN.
تقدم هذه الورقة نظام يستخدم لمهمة Semeval-2021 5: الكشف عن المسافة السامة.نظامنا هو مجموعة من النماذج القائمة على بيرت لتصنيف الكلمة الثنائية، مدربة على مجموعة بيانات تمتد بواسطة التعليقات السامة المعدلة وتولدها نماذج لغتين.بالنسبة لتصنيف الكلمة السا مة، تم تحسين قيمة عتبة التنبؤ بشكل منفصل لكل تعليق، من أجل زيادة قيمة F1 المتوقعة.
مع النمو السريع في التكنولوجيا، شهد نشاط وسائل التواصل الاجتماعي طفرة في جميع الفئات العمرية.من المستحيل الإنساني التحقق من جميع التغريدات والتعليقات والحالة يدويا ما إذا كانت تتبع إرشادات المجتمع المناسبة.يتم نشر الكثير من السمية بانتظام على منصات و سائل التواصل الاجتماعي هذه.يهدف هذا البحث إلى إيجاد كلمات سامة في جملة بحيث يتم بناء مجتمع اجتماعي صحي في جميع أنحاء العالم ويتلقى المستخدمون محتوى مراقم مع تحذيرات وحقائق محددة.لحل هذه المشكلة الصعبة، جمع المؤلفون مفاهيم القائمة المرتبطة بمعالجة ما قبل المعالجة ثم استخدمت فكرة المدينات المكدسة مثل Adffeddings Bertdings و Argeddings Flair و Word2VEC على إطار Flairnlp للحصول على النتائج المرجوة.تم استخدام F1 متري لتقييم النموذج.تمكن المؤلفون من إنتاج درجة 0.74 F1 في مجموعة الاختبار الخاصة بهم.
تم استخدام الشبكات العصبية المتكررة على نطاق واسع في مهام معالجة اللغة الطبيعية المختلفة (NLP) مثل تصنيف النص وعلامات التسلسل والترجمة الآلية.ذاكرة طويلة الأجل طويلة الأجل (LSTM)، وهي وحدة خاصة من RNN، لديها فائدة من حفظ المعلومات السابقة وحتى المستق بل في جملة (خاصة بالنسبة ل LSTM ثنائي الاتجاه).في المهمة المشتركة المتمثلة في اكتشاف الممتد، مما يجعل النصوص سامة، نقوم أولا بتطبيق تضمين الكلمة المسبقة (القفازات) لتوليد مجاهاجر الكلمة بعد التوت.ثم نقوم ببناء نموذج عشوائي طويل الأجل طويل الأجل الطويل الأجل (BI-LSTM-CRF) نموذج بحوث بايدو للتنبؤ بما إذا كانت كل كلمة في الجملة سامة أم لا.نحن نغلق فرط HyperParameters من معدل التسرب، وعدد وحدات LSTM، وتضمين حجم مع 10 حفلات واختيار أفضل عصر مع استدعاء التحقق من الصحة.لدينا نموذج يحقق درجة F1 من 66.99 في المئة في Dataset اختبار.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا