في هذه الورقة، نصف النظم المستخدمة من قبل فريق الروما في المهمة المشتركة بشأن الكشف عن الفكاهة والفكاهة والجريمة (HAHAHACHATHON) في Semeval 2021. تعتمد أنظمتنا على تمثيلات البيانات المستفادة من خلال نماذج اللغة العصبية التي تم ضبطها بشكل جيد. على وجه الخصوص، نستكشف اثنين من البدينات المميزة. يعتمد أول واحد على شبكة عصبية سيام (SNN) مجتمعة مع طريقة التجميع المستندة إلى الرسم البياني. يستخدم نموذج SNN لتعلم مساحة كامنة حيث يمكن تمييز مثيلات الفكاهة وغير الفكاهة. يتم تطبيق طريقة التجميع لبناء النماذج الأولية لكلتا الفئتين المستخدمة في تدريب وتصنيف الرسائل الجديدة. يجمع المرء الثاني بين تمثيلات نموذج اللغة العصبية مع نموذج الانحدار الخطي الذي يجعل التصنيفات النهائية. حققت أنظمتنا أفضل نتائج لتصنيف فكاهة باستخدام نموذج واحد، في حين أن التصنيف الهجومي والفكاهة، حصل النموذج الثاني على أداء أفضل. في حالة التنبؤ الفكاهة المثيرة للجدل، تم تحقيق أهم تحسن من خلال ضبط طراز اللغة العصبية. بشكل عام، فإن النتائج المحققة مشجعة وتعطينا نقطة انطلاق لمزيد من التحسينات.
In this paper we describe the systems used by the RoMa team in the shared task on Detecting and Rating Humor and Offense (HaHackathon) at SemEval 2021. Our systems rely on data representations learned through fine-tuned neural language models. Particularly, we explore two distinct architectures. The first one is based on a Siamese Neural Network (SNN) combined with a graph-based clustering method. The SNN model is used for learning a latent space where instances of humor and non-humor can be distinguished. The clustering method is applied to build prototypes of both classes which are used for training and classifying new messages. The second one combines neural language model representations with a linear regression model which makes the final ratings. Our systems achieved the best results for humor classification using model one, whereas for offensive and humor rating the second model obtained better performance. In the case of the controversial humor prediction, the most significant improvement was achieved by a fine-tuning of the neural language model. In general, the results achieved are encouraging and give us a starting point for further improvements.
References used
https://aclanthology.org/
SemEval 2021 Task 7, HaHackathon, was the first shared task to combine the previously separate domains of humor detection and offense detection. We collected 10,000 texts from Twitter and the Kaggle Short Jokes dataset, and had each annotated for hum
This paper describes our contribution to SemEval-2021 Task 7: Detecting and Rating Humor and Of-fense.This task contains two sub-tasks, sub-task 1and sub-task 2. Among them, sub-task 1 containsthree sub-tasks, sub-task 1a ,sub-task 1b and sub-task 1c
With the emerging trends of using online platforms, peoples are increasingly interested in express their opinion through humorous texts. Identifying and rating humorous texts poses unique challenges to NLP due to subjective phenomena i.e. humor may v
Humor recognition is a challenging task in natural language processing. This document presents my approaches to detect and rate humor and offense from the given text. This task includes 2 tasks: task 1 which contains 3 subtasks (1a, 1b, and 1c), and
The HaHackathon: Detecting and Rating Humor and Offense'' task at the SemEval 2021 competition focuses on detecting and rating the humor level in sentences, as well as the level of offensiveness contained in these texts with humoristic tones. In this