تم استخدام الشبكات العصبية المتكررة على نطاق واسع في مهام معالجة اللغة الطبيعية المختلفة (NLP) مثل تصنيف النص وعلامات التسلسل والترجمة الآلية.ذاكرة طويلة الأجل طويلة الأجل (LSTM)، وهي وحدة خاصة من RNN، لديها فائدة من حفظ المعلومات السابقة وحتى المستقبل في جملة (خاصة بالنسبة ل LSTM ثنائي الاتجاه).في المهمة المشتركة المتمثلة في اكتشاف الممتد، مما يجعل النصوص سامة، نقوم أولا بتطبيق تضمين الكلمة المسبقة (القفازات) لتوليد مجاهاجر الكلمة بعد التوت.ثم نقوم ببناء نموذج عشوائي طويل الأجل طويل الأجل الطويل الأجل (BI-LSTM-CRF) نموذج بحوث بايدو للتنبؤ بما إذا كانت كل كلمة في الجملة سامة أم لا.نحن نغلق فرط HyperParameters من معدل التسرب، وعدد وحدات LSTM، وتضمين حجم مع 10 حفلات واختيار أفضل عصر مع استدعاء التحقق من الصحة.لدينا نموذج يحقق درجة F1 من 66.99 في المئة في Dataset اختبار.
Recurrent Neural Networks (RNN) have been widely used in various Natural Language Processing (NLP) tasks such as text classification, sequence tagging, and machine translation. Long Short Term Memory (LSTM), a special unit of RNN, has the benefit of memorizing past and even future information in a sentence (especially for bidirectional LSTM). In the shared task of detecting spans which make texts toxic, we first apply pretrained word embedding (GloVe) to generate the word vectors after tokenization. And then we construct Bidirectional Long Short Term Memory-Conditional Random Field (Bi-LSTM-CRF) model by Baidu research to predict whether each word in the sentence is toxic or not. We tune hyperparameters of dropout rate, number of LSTM units, embedding size with 10 epochs and choose the best epoch with validation recall. Our model achieves an F1 score of 66.99 percent in test dataset.
المراجع المستخدمة
https://aclanthology.org/
تصف هذه الورقة مشاركة فريق سيناء في المهمة 5: الكشف عن الأمور السامة التي تتكون من تحديد المواقف التي تجعل النص سام.على الرغم من أن العديد من الموارد والأنظمة قد تم تطويرها حتى الآن في سياق اللغة الهجومية، ركزت كل من التوضيحية والمهام بشكل رئيسي على
مع النمو السريع في التكنولوجيا، شهد نشاط وسائل التواصل الاجتماعي طفرة في جميع الفئات العمرية.من المستحيل الإنساني التحقق من جميع التغريدات والتعليقات والحالة يدويا ما إذا كانت تتبع إرشادات المجتمع المناسبة.يتم نشر الكثير من السمية بانتظام على منصات و
تقدم هذه الورقة التقديم الخاص بنا إلى مهمة Semeval-2021 5: الكشف عن الأمور السامة.الغرض من هذه المهمة هو اكتشاف المواقف التي تجعل النص ساما، وهو عمل معقد لعدة أسباب.أولا، بسبب الذاتية الجوهرية للسمية، وثانيا، بسبب السمية لا تأتي دائما من كلمات مفردة
تتطلب مهمة الكشف عن المسافة السامة في Semeval-2021 المشاركين الذين يتعين على المشاركين التنبؤ بالوظائف السامة التي كانت مسؤولة عن الملصق السام للوظائف.يمكن معالجة المهمة كمصموع تسلسل إشراف، باستخدام بيانات التدريب مع يمتد سامة الذهب المقدمة من المنظم
اكتشاف المواقف السامة - اكتشاف سمية المحتويات في حبيبتي الرموز - أمر حاسم للاعتدال الفعال للمناقشات عبر الإنترنت.تتمثل النهج الأساسي في هذه المشكلة في استخدام نموذج المحول في إضافة رأس تصنيف رمزي إلى طراز اللغة وضبط الطبقات الدقيقة مع مجموعة بيانات ا