ترغب بنشر مسار تعليمي؟ اضغط هنا

UOT-UWF-Partai في مهمة Semeval-2021 5: الانتباه الذاتي القائمة BI-GRU مع تمثيل متعدد التضمين لتسجيل السمية

UoT-UWF-PartAI at SemEval-2021 Task 5: Self Attention Based Bi-GRU with Multi-Embedding Representation for Toxicity Highlighter

233   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم تعريف مهمة الكشف عن الفقاعات السامة (TSD) على أنها تسليط الضوء على يمتد يمتد النص السام.تم إجراء العديد من الأعمال لتصنيف تعليق أو وثيقة معينة على أنها سامة أو غير سامة.ومع ذلك، لا تعمل أي من هذه النماذج المقترحة على مستوى الرمز المميز.في هذه الورقة، نقترح وحدة متكررة ثنائية الاهتمام بالانتباه (BIGRU) مع تمثيل متعدد التضمين للرموز.يثري نموذجنا المقترح التمثيل بمزيج من GPT-2، قفاز، و Aroperta Ageddings، مما أدى إلى نتائج واعدة.تظهر النتائج التجريبية أن نهجنا المقترح فعال للغاية في الكشف عن الرموز المميزة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم استخدام الشبكات العصبية المتكررة على نطاق واسع في مهام معالجة اللغة الطبيعية المختلفة (NLP) مثل تصنيف النص وعلامات التسلسل والترجمة الآلية.ذاكرة طويلة الأجل طويلة الأجل (LSTM)، وهي وحدة خاصة من RNN، لديها فائدة من حفظ المعلومات السابقة وحتى المستق بل في جملة (خاصة بالنسبة ل LSTM ثنائي الاتجاه).في المهمة المشتركة المتمثلة في اكتشاف الممتد، مما يجعل النصوص سامة، نقوم أولا بتطبيق تضمين الكلمة المسبقة (القفازات) لتوليد مجاهاجر الكلمة بعد التوت.ثم نقوم ببناء نموذج عشوائي طويل الأجل طويل الأجل الطويل الأجل (BI-LSTM-CRF) نموذج بحوث بايدو للتنبؤ بما إذا كانت كل كلمة في الجملة سامة أم لا.نحن نغلق فرط HyperParameters من معدل التسرب، وعدد وحدات LSTM، وتضمين حجم مع 10 حفلات واختيار أفضل عصر مع استدعاء التحقق من الصحة.لدينا نموذج يحقق درجة F1 من 66.99 في المئة في Dataset اختبار.
تقدم هذه الورقة التقديم الخاص بنا إلى مهمة Semeval-2021 5: الكشف عن الأمور السامة.الغرض من هذه المهمة هو اكتشاف المواقف التي تجعل النص ساما، وهو عمل معقد لعدة أسباب.أولا، بسبب الذاتية الجوهرية للسمية، وثانيا، بسبب السمية لا تأتي دائما من كلمات مفردة مثل الإهانات أو التمثيل، ولكن في بعض الأحيان من التعبيرات بأكملها تشكلت بكلمات قد لا تكون سامة بشكل فردي.بعد هذه الفكرة التركيز على كل من الكلمات المفردة وتعبيرات متعددة الكلمة، ندرس تأثير استخدام نموذج مستعمل متعدد العميم، والذي يستخدم embeddings من طبقات مختلفة لتقدير السمية النهائية لكل رمزية.تظهر النتائج الكمية لدينا أن استخدام المعلومات من أعماق متعددة يعزز أداء النموذج.أخيرا، نقوم أيضا بتحليل أفضل نموذج لدينا نوعيا.
تصف هذه الورقة نظامنا المشارك في المهمة 7 من Semeval-2021: الكشف عن الفكاهة والجريمة.تم تصميم المهمة للكشف عن الفكاهة والجريمة التي تتأثر بالعوامل الذاتية.من أجل الحصول على معلومات دلالية من كمية كبيرة من البيانات غير المسبقة، طبقنا نماذج اللغة المدر بة مسبقا غير مدبونة.من خلال إجراء البحوث والتجارب، وجدنا أن نماذج Ernie 2.0 و Deberta مدربة مسبقا حققت أداء مثير للإعجاب في مختلف المهام الفرعية.لذلك، طبقنا النماذج المدربة مسبقا أعلاه لضبط الشبكة العصبية المصب.في عملية ضبط النموذج بشكل جيد، اعتمكن من استراتيجية التدريب المتعدد المهام وطريقة تعلم الفرقة.استنادا إلى الاستراتيجية والطريقة المذكورة أعلاه، حققنا RMSE 0.4959 ل SubTask 1B، وفاز أخيرا في المقام الأول.
مع النمو السريع في التكنولوجيا، شهد نشاط وسائل التواصل الاجتماعي طفرة في جميع الفئات العمرية.من المستحيل الإنساني التحقق من جميع التغريدات والتعليقات والحالة يدويا ما إذا كانت تتبع إرشادات المجتمع المناسبة.يتم نشر الكثير من السمية بانتظام على منصات و سائل التواصل الاجتماعي هذه.يهدف هذا البحث إلى إيجاد كلمات سامة في جملة بحيث يتم بناء مجتمع اجتماعي صحي في جميع أنحاء العالم ويتلقى المستخدمون محتوى مراقم مع تحذيرات وحقائق محددة.لحل هذه المشكلة الصعبة، جمع المؤلفون مفاهيم القائمة المرتبطة بمعالجة ما قبل المعالجة ثم استخدمت فكرة المدينات المكدسة مثل Adffeddings Bertdings و Argeddings Flair و Word2VEC على إطار Flairnlp للحصول على النتائج المرجوة.تم استخدام F1 متري لتقييم النموذج.تمكن المؤلفون من إنتاج درجة 0.74 F1 في مجموعة الاختبار الخاصة بهم.
في هذه الورقة، نقدم مساهمتنا في مهمة Semeval-2021 1: تنبؤ التعقيد المعجمي، حيث ندمج الممتلكات اللغوية والإحصائية والدلية للكلمة المستهدفة وسياقها كميزات ضمن إطار تعلم الجهاز (ML) للتنبؤ بالتعقيد المعجميوبعدعلى وجه الخصوص، نستخدم شركة Bert Contentrali zed Word Adgeddings لتمثيل المعنى الدلالي للكلمة المستهدفة وسياقها.شاركنا في المهمة الفرعية المتمثلة في التنبؤ بدرجة تعقيد كلمات واحدة

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا