ترغب بنشر مسار تعليمي؟ اضغط هنا

Bennettnlp في مهمة Semeval-2021: الكشف عن المسيح السامة باستخدام الكيانات السامة المدعومة من التضمين

BennettNLP at SemEval-2021 Task 5: Toxic Spans Detection using Stacked Embedding Powered Toxic Entity Recognizer

374   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مع النمو السريع في التكنولوجيا، شهد نشاط وسائل التواصل الاجتماعي طفرة في جميع الفئات العمرية.من المستحيل الإنساني التحقق من جميع التغريدات والتعليقات والحالة يدويا ما إذا كانت تتبع إرشادات المجتمع المناسبة.يتم نشر الكثير من السمية بانتظام على منصات وسائل التواصل الاجتماعي هذه.يهدف هذا البحث إلى إيجاد كلمات سامة في جملة بحيث يتم بناء مجتمع اجتماعي صحي في جميع أنحاء العالم ويتلقى المستخدمون محتوى مراقم مع تحذيرات وحقائق محددة.لحل هذه المشكلة الصعبة، جمع المؤلفون مفاهيم القائمة المرتبطة بمعالجة ما قبل المعالجة ثم استخدمت فكرة المدينات المكدسة مثل Adffeddings Bertdings و Argeddings Flair و Word2VEC على إطار Flairnlp للحصول على النتائج المرجوة.تم استخدام F1 متري لتقييم النموذج.تمكن المؤلفون من إنتاج درجة 0.74 F1 في مجموعة الاختبار الخاصة بهم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مع توفر المعلومات الرقمية المتزايدة بشكل متزايد، فإن المحتوى السام هو أيضا في ارتفاع. لذلك، فإن اكتشاف هذا النوع من اللغة له أهمية قصوى. نتعامل مع هذه المشكلة باستخدام مجموعة من نموذج اللغة المدربة مسبقا من أحدث (ManalBert) وتقنية حقيبة من الكلمات ال تقليدية. نظرا لأن المحتوى مليء بالكلمات السامة التي لم تتم كتابتها وفقا لإملاء القاموس، فإن الحضور للشخصيات الفردية أمر بالغ الأهمية. لذلك، نستخدم ManalBerT لاستخراج الميزات بناء على أحرف كلمة. يتكون من وحدة LiftCNN التي تتعلم تضمين الأحرف من السياق. هذه هي، إذن، تغذيها بنية بيرت المعروفة. طريقة حقيبة الكلمات، من ناحية أخرى، تتحسن كذلك على ذلك بالتأكد من أن بعض الكلمات السامة المستخدمة في كثير من الأحيان تسمى وفقا لذلك. مع اختلاف ~4 في المئة من الفريق الأول، احتل نظامنا المرتبة 36 في المسابقة. يتوفر الكود لمزيد من البحث واستكمال النتائج.
تتطلب مهمة الكشف عن المسافة السامة في Semeval-2021 المشاركين الذين يتعين على المشاركين التنبؤ بالوظائف السامة التي كانت مسؤولة عن الملصق السام للوظائف.يمكن معالجة المهمة كمصموع تسلسل إشراف، باستخدام بيانات التدريب مع يمتد سامة الذهب المقدمة من المنظم ين.يمكن التعامل معها أيضا على أنها استخراج الأساس المنطقي، باستخدام مصنفات مدربين على مجموعات بيانات خارجية أكبر من الوظائف المشروحة يدويا على أنها سامة أم لا، دون شروح سامةبالنسبة لنهج وضع التسلسل الإشرافي وأغراض التقييم، كانت الوظائف التي سبق وصفها بأنها سامة مشروحة من أشكال الجماهير السامة.قدم المشاركون يمتدين المتوقعين من أجل مجموعة اختبار محمولة وسجلوا باستخدام F1 القائمة على الطابع.يلخص النظرة نظرة عامة عمل الفرق 36 التي قدمت أوصاف النظام.
تم استخدام الشبكات العصبية المتكررة على نطاق واسع في مهام معالجة اللغة الطبيعية المختلفة (NLP) مثل تصنيف النص وعلامات التسلسل والترجمة الآلية.ذاكرة طويلة الأجل طويلة الأجل (LSTM)، وهي وحدة خاصة من RNN، لديها فائدة من حفظ المعلومات السابقة وحتى المستق بل في جملة (خاصة بالنسبة ل LSTM ثنائي الاتجاه).في المهمة المشتركة المتمثلة في اكتشاف الممتد، مما يجعل النصوص سامة، نقوم أولا بتطبيق تضمين الكلمة المسبقة (القفازات) لتوليد مجاهاجر الكلمة بعد التوت.ثم نقوم ببناء نموذج عشوائي طويل الأجل طويل الأجل الطويل الأجل (BI-LSTM-CRF) نموذج بحوث بايدو للتنبؤ بما إذا كانت كل كلمة في الجملة سامة أم لا.نحن نغلق فرط HyperParameters من معدل التسرب، وعدد وحدات LSTM، وتضمين حجم مع 10 حفلات واختيار أفضل عصر مع استدعاء التحقق من الصحة.لدينا نموذج يحقق درجة F1 من 66.99 في المئة في Dataset اختبار.
تقدم هذه الورقة التقديم الخاص بنا إلى مهمة Semeval-2021 5: الكشف عن الأمور السامة.الغرض من هذه المهمة هو اكتشاف المواقف التي تجعل النص ساما، وهو عمل معقد لعدة أسباب.أولا، بسبب الذاتية الجوهرية للسمية، وثانيا، بسبب السمية لا تأتي دائما من كلمات مفردة مثل الإهانات أو التمثيل، ولكن في بعض الأحيان من التعبيرات بأكملها تشكلت بكلمات قد لا تكون سامة بشكل فردي.بعد هذه الفكرة التركيز على كل من الكلمات المفردة وتعبيرات متعددة الكلمة، ندرس تأثير استخدام نموذج مستعمل متعدد العميم، والذي يستخدم embeddings من طبقات مختلفة لتقدير السمية النهائية لكل رمزية.تظهر النتائج الكمية لدينا أن استخدام المعلومات من أعماق متعددة يعزز أداء النموذج.أخيرا، نقوم أيضا بتحليل أفضل نموذج لدينا نوعيا.
اكتشاف المواقف السامة - اكتشاف سمية المحتويات في حبيبتي الرموز - أمر حاسم للاعتدال الفعال للمناقشات عبر الإنترنت.تتمثل النهج الأساسي في هذه المشكلة في استخدام نموذج المحول في إضافة رأس تصنيف رمزي إلى طراز اللغة وضبط الطبقات الدقيقة مع مجموعة بيانات ا لمسمى الرمز المميز.واحدة من قيود مثل هذا النهج الأساسي هي ندرة البيانات المسمى.لتحسين النتائج، درسنا الاستفادة من مجموعات البيانات العامة الحالية للحصول على مهمة ذات صلة ولكن مختلفة بتصنيف التعليق / الجملة بأكملها.نقترح مقارنتين: النهج الأول نماذج محول بخامة مدربة مسبقا في عينات تصنيف الجملة.في النهج الثاني، نقوم بإجراء إشراف ضعيف مع الاهتمام اللين لتعلم تسميات مستوى الرموز من ملصقات الجملة.تجاربنا تظهر التحسينات في درجة F1 عبر النهج الأساسي.تم إصدار التنفيذ علنا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا