نحن نصف مشاركتنا في جميع المهام المشتركة بين Germeval 2021 بشأن تحديد تعليقات سمية ومشاركة وتحقيق الحقائق.نظامنا هو مجموعة من النماذج المدربة مسبقا من أحدث المعلومات المصنوعة من الميزات المصنعة بعناية.نظهر أن ميزة الهندسة وتكبير البيانات يمكن أن تكون مفيدة عندما تكون البيانات التدريبية متناثرة.نحن نحقق درجة F1 من 66.87 و 68.93 و 73.91 في التعليق السام والمشاركة في التعليق في التعليق التعليق.
We describe our participation in all the subtasks of the Germeval 2021 shared task on the identification of Toxic, Engaging, and Fact-Claiming Comments. Our system is an ensemble of state-of-the-art pre-trained models finetuned with carefully engineered features. We show that feature engineering and data augmentation can be helpful when the training data is sparse. We achieve an F1 score of 66.87, 68.93, and 73.91 in Toxic, Engaging, and Fact-Claiming comment identification subtasks.
المراجع المستخدمة
https://aclanthology.org/
العاطفة أساسية للإنسانية.تعد القدرة على إدراك التفاعلات الاجتماعية وتفهمها والاستجابة لها بطريقة تشبه الإنسان واحدة من أكثر القدرات المرجوة في الوكلاء الاصطناعي، خاصة في روبوتات الوسائط الاجتماعية.خلال السنوات القليلة الماضية، كانت التفاهم الحاسوبية
حققت نماذج اللغة المدربة مسبقا نجاحا كبيرا على مجموعة واسعة من مهام NLP. ومع ذلك، فإن التمثيلات السياقية من النماذج المدربة مسبقا تحتوي على معلومات دلالية ومتنامية متشابكة، وبالتالي لا يمكن استخدامها مباشرة لاستخلاص مدينات جملة دلالية مفيدة لبعض المه
يتعين على نماذج اللغة المدربة مسبقا (PRLM) لإدارة وحدات الإدخال بعناية عند التدريب على نص كبير جدا مع مفردات تتكون من ملايين الكلمات. أظهرت الأعمال السابقة أن دمج معلومات المسيح على مستوى الأمان بشأن الكلمات المتتالية في التدريب المسبق يمكن أن تحسن أ
تصف هذه الورقة نهجنا (UR-IW-HNT) للمهمة المشتركة ل Germeval2021 لتحديد تعليقات السامة والمشاركة والحقائق المزعومة.قدمنا ثلاثة أشواط باستخدام استراتيجية كوئية من خلال التصويت بالأغلبية (الصعب) مع العديد من نماذج بيرت مختلفة من ثلاثة أنواع مختلفة: نماذ
تحدث نماذج اللغات القائمة على المحولات الحديثة ثورة في NLP. ومع ذلك، كانت الدراسات الحالية في النمذجة اللغوية مع بيرت تقتصر في الغالب على المواد باللغة الإنجليزية ولا تدفع اهتماما كافيا لمعرفة اللغة الضمنية باللغة، مثل الأدوار الدلالية والتفترض واللب