ترغب بنشر مسار تعليمي؟ اضغط هنا

HLE-UPC في مهمة Semeval-2021 5: التبريد المتعدد العمق للكشف عن الأمور السامة

HLE-UPC at SemEval-2021 Task 5: Multi-Depth DistilBERT for Toxic Spans Detection

408   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة التقديم الخاص بنا إلى مهمة Semeval-2021 5: الكشف عن الأمور السامة.الغرض من هذه المهمة هو اكتشاف المواقف التي تجعل النص ساما، وهو عمل معقد لعدة أسباب.أولا، بسبب الذاتية الجوهرية للسمية، وثانيا، بسبب السمية لا تأتي دائما من كلمات مفردة مثل الإهانات أو التمثيل، ولكن في بعض الأحيان من التعبيرات بأكملها تشكلت بكلمات قد لا تكون سامة بشكل فردي.بعد هذه الفكرة التركيز على كل من الكلمات المفردة وتعبيرات متعددة الكلمة، ندرس تأثير استخدام نموذج مستعمل متعدد العميم، والذي يستخدم embeddings من طبقات مختلفة لتقدير السمية النهائية لكل رمزية.تظهر النتائج الكمية لدينا أن استخدام المعلومات من أعماق متعددة يعزز أداء النموذج.أخيرا، نقوم أيضا بتحليل أفضل نموذج لدينا نوعيا.

المراجع المستخدمة
https://aclanthology.org/

قيم البحث

اقرأ أيضاً

في هذه الورقة، نصف نظامنا المستخدمة في مهمة Semeval 2021 5: الكشف عن الأمور السامة.ينتهك نظامنا المقترح من مشكلة مهمة تصنيف رمزية.قمنا بتدريب نموذجنا للعثور على كلمات سامة وتسلسل يمتد إلى التنبؤ باليوفق السام في غضون جملة.نحن نطبات نماذج اللغة المدرب ة مسبقا (PLMS) لتحديد الكلمات السامة.بالنسبة للضبط الدقيق، كدغ طبقة التصنيف أعلى ميزات PLM لكل كلمة لتصنيفها إذا كانت سامة أم لا.يتم تدريب PLMS مسبقا على استخدام أهداف مختلفة وقد يختلف أدائها في مهام المصب.لذلك، قارن أداء بيرت، Electra، روبرتا، XLM-ROBERTA، T5، XLNET، و MPNET لتحديد المواقف السامة في غضون جملة.أفضل نظام أداء لدينا يستخدم روبرتا.أداء جيدا، وتحقيق درجة F1 من 0.6841 وتأمين مرتبة 16 على المتصدرين الرسميين.
تتطلب مهمة الكشف عن المسافة السامة في Semeval-2021 المشاركين الذين يتعين على المشاركين التنبؤ بالوظائف السامة التي كانت مسؤولة عن الملصق السام للوظائف.يمكن معالجة المهمة كمصموع تسلسل إشراف، باستخدام بيانات التدريب مع يمتد سامة الذهب المقدمة من المنظم ين.يمكن التعامل معها أيضا على أنها استخراج الأساس المنطقي، باستخدام مصنفات مدربين على مجموعات بيانات خارجية أكبر من الوظائف المشروحة يدويا على أنها سامة أم لا، دون شروح سامةبالنسبة لنهج وضع التسلسل الإشرافي وأغراض التقييم، كانت الوظائف التي سبق وصفها بأنها سامة مشروحة من أشكال الجماهير السامة.قدم المشاركون يمتدين المتوقعين من أجل مجموعة اختبار محمولة وسجلوا باستخدام F1 القائمة على الطابع.يلخص النظرة نظرة عامة عمل الفرق 36 التي قدمت أوصاف النظام.
تصف هذه الورقة مشاركة فريق سيناء في المهمة 5: الكشف عن الأمور السامة التي تتكون من تحديد المواقف التي تجعل النص سام.على الرغم من أن العديد من الموارد والأنظمة قد تم تطويرها حتى الآن في سياق اللغة الهجومية، ركزت كل من التوضيحية والمهام بشكل رئيسي على تصنيف ما إذا كان النص مسيء أم لا.ومع ذلك، فإن اكتشاف المواقف السامة أمر بالغ الأهمية لتحديد سبب وجود نص سام ويمكنه مساعدة المشرفين البشري لتحديد موقع هذا النوع من المحتوى على وسائل التواصل الاجتماعي.من أجل إنجاز المهمة، نتبع نهجا عميقا قائم على التعلم باستخدام متغير ثنائي الاتجاه لشبكة ذاكرة طويلة الأجل طويلة إلى جانب طبقة فكري حقل عشوائية مشروطة (Bilstm-CRF).على وجه التحديد، نختبر أداء مزيج من مختلف تضمين الكلمة المدربة مسبقا للتعرف على الكيانات السامة في النص.تظهر النتائج أن مزيج من Adgeddings يساعد في اكتشاف المحتوى الهجومي.يرتب فريقنا 29 من أصل 91 مشاركا.
اكتشاف المواقف السامة - اكتشاف سمية المحتويات في حبيبتي الرموز - أمر حاسم للاعتدال الفعال للمناقشات عبر الإنترنت.تتمثل النهج الأساسي في هذه المشكلة في استخدام نموذج المحول في إضافة رأس تصنيف رمزي إلى طراز اللغة وضبط الطبقات الدقيقة مع مجموعة بيانات ا لمسمى الرمز المميز.واحدة من قيود مثل هذا النهج الأساسي هي ندرة البيانات المسمى.لتحسين النتائج، درسنا الاستفادة من مجموعات البيانات العامة الحالية للحصول على مهمة ذات صلة ولكن مختلفة بتصنيف التعليق / الجملة بأكملها.نقترح مقارنتين: النهج الأول نماذج محول بخامة مدربة مسبقا في عينات تصنيف الجملة.في النهج الثاني، نقوم بإجراء إشراف ضعيف مع الاهتمام اللين لتعلم تسميات مستوى الرموز من ملصقات الجملة.تجاربنا تظهر التحسينات في درجة F1 عبر النهج الأساسي.تم إصدار التنفيذ علنا.
في السنوات الأخيرة، أدى الاستخدام الواسع للوسائط الاجتماعية إلى زيادة في جيل من المحتوى السام والهجومي على المنصات عبر الإنترنت. استجابة، عملت منصات وسائل التواصل الاجتماعي على تطوير أساليب الكشف التلقائي وتوظيف المشرفين البشري للتعامل مع هذا الطوفان من المحتوى الهجومي. في حين تم تطبيق العديد من النماذج الإحصائية للحدث من بين الفنون للكشف عن الوظائف السامة، لا توجد سوى عدد قليل من الدراسات التي تركز على الكشف عن الكلمات أو التعبيرات التي تشكل هجوما بعد. هذا يحفز تنظيم مهمة Semeval-2021 5: مسابقة الكشف عن المسافات السامة، التي قدمت المشاركين مع مجموعة بيانات تحتوي على شرح سام يمتد في المشاركات الإنكليزية. في هذه الورقة، نقدم دخول WLV-RIT لمهمة Semeval-2021 5. يحقق نموذجنا الأفضل أداء محول العصبي 0.68 F1 درجة. علاوة على ذلك، نقوم بتطوير إطار مفتوح المصدر للكشف المتعدد اللغات عن الممثل الهجومي، أي القنص، بناء على المحولات العصبية التي تكتشف تمديد السام في النصوص.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا