ترغب بنشر مسار تعليمي؟ اضغط هنا

NLP \ _UIOWA في مهمة Semeval-2021 5: نقل مجموعات سامة إلى العلامة يمتد السامة

NLP\_UIOWA at Semeval-2021 Task 5: Transferring Toxic Sets to Tag Toxic Spans

396   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نستفيد من BLSTM مع الاهتمام لتحديد المواقف السامة في النصوص.نستكشف أبعاد مختلفة تؤثر على أداء النموذج.البعد الأول الذي تم استكشافه هو المجموعة السامة يتم تدريب النموذج.إلى جانب مجموعة البيانات المقدمة، نستكشف قدرة تحويل 5 مجموعات ذات صلة سامة مختلفة، بما في ذلك مجموعات الهجومية والسامة والمسيئة والكراهية.نجد أن المجموعة المسيئة فقط تظهر أعلى وعد القدرة على التحويل.البعد الثاني الذي نستكشفه هو المنهجية، بما في ذلك الاستفادة من الاهتمام، وتوظيف طريقة إزالة الجشع، باستخدام نسبة التردد، وفحص المجموعات الهجينة من طرق متعددة.نقوم بإجراء تحليل خطأ لفحص أنواع الأيوب السامة التي تم تفويتها والتي تم استنتاجها بشكل خاطئ على أنها سامة مع الأسباب الرئيسية وراء حدوثها.أخيرا، نقوم بتوسيع نطاق أسلوبنا عبر الفرع، والذي يحقق أعلى درجة F1 لدينا من 55.1.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تتطلب مهمة الكشف عن المسافة السامة في Semeval-2021 المشاركين الذين يتعين على المشاركين التنبؤ بالوظائف السامة التي كانت مسؤولة عن الملصق السام للوظائف.يمكن معالجة المهمة كمصموع تسلسل إشراف، باستخدام بيانات التدريب مع يمتد سامة الذهب المقدمة من المنظم ين.يمكن التعامل معها أيضا على أنها استخراج الأساس المنطقي، باستخدام مصنفات مدربين على مجموعات بيانات خارجية أكبر من الوظائف المشروحة يدويا على أنها سامة أم لا، دون شروح سامةبالنسبة لنهج وضع التسلسل الإشرافي وأغراض التقييم، كانت الوظائف التي سبق وصفها بأنها سامة مشروحة من أشكال الجماهير السامة.قدم المشاركون يمتدين المتوقعين من أجل مجموعة اختبار محمولة وسجلوا باستخدام F1 القائمة على الطابع.يلخص النظرة نظرة عامة عمل الفرق 36 التي قدمت أوصاف النظام.
تقدم هذه الورقة التقديم الخاص بنا إلى مهمة Semeval-2021 5: الكشف عن الأمور السامة.الغرض من هذه المهمة هو اكتشاف المواقف التي تجعل النص ساما، وهو عمل معقد لعدة أسباب.أولا، بسبب الذاتية الجوهرية للسمية، وثانيا، بسبب السمية لا تأتي دائما من كلمات مفردة مثل الإهانات أو التمثيل، ولكن في بعض الأحيان من التعبيرات بأكملها تشكلت بكلمات قد لا تكون سامة بشكل فردي.بعد هذه الفكرة التركيز على كل من الكلمات المفردة وتعبيرات متعددة الكلمة، ندرس تأثير استخدام نموذج مستعمل متعدد العميم، والذي يستخدم embeddings من طبقات مختلفة لتقدير السمية النهائية لكل رمزية.تظهر النتائج الكمية لدينا أن استخدام المعلومات من أعماق متعددة يعزز أداء النموذج.أخيرا، نقوم أيضا بتحليل أفضل نموذج لدينا نوعيا.
غالبا ما تكون اللغة السامة موجودة في المنتديات عبر الإنترنت، خاصة عندما تنشأ السياسة وغيرها من الموضوعات الاستقطابية، ويمكن أن تؤدي إلى أن يصبحوا محبطين من الانضمام إلى المحادثات أو الاستمرار فيها.في هذه الورقة، نستخدم البيانات التي تتألف من تعليقات مع مؤشرات النص السام المسمى لتدريب RNN لردع الألغام التي تجعلها أجزاء من التعليقات تجعلها سامة، والتي يمكن أن تساعد المشرفين عبر الإنترنت.نقارن النتائج باستخدام مجموعة البيانات الأصلية ومجموعة معدات، وكذلك نماذج Gru مقابل LSTM RNN.
مع النمو السريع في التكنولوجيا، شهد نشاط وسائل التواصل الاجتماعي طفرة في جميع الفئات العمرية.من المستحيل الإنساني التحقق من جميع التغريدات والتعليقات والحالة يدويا ما إذا كانت تتبع إرشادات المجتمع المناسبة.يتم نشر الكثير من السمية بانتظام على منصات و سائل التواصل الاجتماعي هذه.يهدف هذا البحث إلى إيجاد كلمات سامة في جملة بحيث يتم بناء مجتمع اجتماعي صحي في جميع أنحاء العالم ويتلقى المستخدمون محتوى مراقم مع تحذيرات وحقائق محددة.لحل هذه المشكلة الصعبة، جمع المؤلفون مفاهيم القائمة المرتبطة بمعالجة ما قبل المعالجة ثم استخدمت فكرة المدينات المكدسة مثل Adffeddings Bertdings و Argeddings Flair و Word2VEC على إطار Flairnlp للحصول على النتائج المرجوة.تم استخدام F1 متري لتقييم النموذج.تمكن المؤلفون من إنتاج درجة 0.74 F1 في مجموعة الاختبار الخاصة بهم.
تستخدم منصات الشبكة الاجتماعية عموما لمشاركة المحتوى الإيجابي والبناء والرائعة. ومع ذلك، في الآونة الأخيرة، غالبا ما يتعرض الناس على المحتوى المرفوض مثل التهديد وهجمات الهوية أو خطاب الكراهية أو الإهانات أو النصوص الفاحشة أو الملاحظات الهجومية أو الب لطجة. يركز العمل الحالي على كشف الكلام السام على التصنيف الثنائي أو على التمييز الخطاب السام بين مجموعة صغيرة من الفئات. تصف هذه الورقة النظام الذي اقترحه فريق Cisco for Semeval-2021 المهمة 5: الكشف عن الأمور السامة، أول مهمة مشتركة تركز على اكتشاف المواقف في النص الذي يعزى إلى سميته، باللغة الإنجليزية. نحن نقترب من هذه المشكلة في المقام الأول بطريقتين: نهج علامات التسلسل ونهج تحليل التبعية. في نهج علامات التسلسل لدينا، نعلم كل رمز رمزي في جملة تحت مخطط وضع علامات معينة. أثبتت بنية الأداء الخاصة بنا في هذا النهج أيضا أنها أفضل بنية أداء لدينا بشكل عام مع درجة F1 من 0.6922، وبالتالي وضع 7 لنا في مرحلة التقييم النهائية المتصدرين. نستكشف أيضا نهج تحليل التبعية حيث استخرفنا يمتد من عقوبة الإدخال تحت إشراف حدود المستهدفة المستهدفة وترتيب تمديدنا باستخدام نموذج بيافين. أخيرا، نقدم أيضا تحليلا مفصلا لنتائجنا وأداء النموذج في ورقنا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا