في هذه الورقة، نصف النظم المستخدمة من قبل فريق الروما في المهمة المشتركة بشأن الكشف عن الفكاهة والفكاهة والجريمة (HAHAHACHATHON) في Semeval 2021. تعتمد أنظمتنا على تمثيلات البيانات المستفادة من خلال نماذج اللغة العصبية التي تم ضبطها بشكل جيد. على وجه الخصوص، نستكشف اثنين من البدينات المميزة. يعتمد أول واحد على شبكة عصبية سيام (SNN) مجتمعة مع طريقة التجميع المستندة إلى الرسم البياني. يستخدم نموذج SNN لتعلم مساحة كامنة حيث يمكن تمييز مثيلات الفكاهة وغير الفكاهة. يتم تطبيق طريقة التجميع لبناء النماذج الأولية لكلتا الفئتين المستخدمة في تدريب وتصنيف الرسائل الجديدة. يجمع المرء الثاني بين تمثيلات نموذج اللغة العصبية مع نموذج الانحدار الخطي الذي يجعل التصنيفات النهائية. حققت أنظمتنا أفضل نتائج لتصنيف فكاهة باستخدام نموذج واحد، في حين أن التصنيف الهجومي والفكاهة، حصل النموذج الثاني على أداء أفضل. في حالة التنبؤ الفكاهة المثيرة للجدل، تم تحقيق أهم تحسن من خلال ضبط طراز اللغة العصبية. بشكل عام، فإن النتائج المحققة مشجعة وتعطينا نقطة انطلاق لمزيد من التحسينات.
In this paper we describe the systems used by the RoMa team in the shared task on Detecting and Rating Humor and Offense (HaHackathon) at SemEval 2021. Our systems rely on data representations learned through fine-tuned neural language models. Particularly, we explore two distinct architectures. The first one is based on a Siamese Neural Network (SNN) combined with a graph-based clustering method. The SNN model is used for learning a latent space where instances of humor and non-humor can be distinguished. The clustering method is applied to build prototypes of both classes which are used for training and classifying new messages. The second one combines neural language model representations with a linear regression model which makes the final ratings. Our systems achieved the best results for humor classification using model one, whereas for offensive and humor rating the second model obtained better performance. In the case of the controversial humor prediction, the most significant improvement was achieved by a fine-tuning of the neural language model. In general, the results achieved are encouraging and give us a starting point for further improvements.
المراجع المستخدمة
https://aclanthology.org/
Semeval 2021 المهمة 7، Hahackathon، كانت أول مهمة مشتركة للجمع بين المجالات المنفصلة سابقا من الكشف عن الفكاهة والكشف عن الجريمة. جمعنا 10000 نص من تويتر ومجموعات بيانات النكات القصيرة في Kaggle، وكان كل منها مشروح من الفكاهة والجريمة بمقدار 20 حديثا
توضح هذه الورقة مساهمتنا في مهمة Semeval-2021: الكشف عن الفكاهة وتصنيف المهمة وتصنيف المهمة الخاصة بهذه المهام الفرعية، المهمة الفرعية 1 ومهمة فرعية 2. من بينها، المهمة الفرعية 1 المهام الفرعية الفرعية، المهمة الفرعية 1A، المهمة الفرعية 1B والمهمة ال
مع الاتجاهات الناشئة لاستخدام المنصات عبر الإنترنت، فإن الشعوب مهتمة بشكل متزايد بالتعبير عن رأيهم من خلال نصوص روح الدعابة.تحديد ونصوص فكاهة التصنيف يشكل تحديات فريدة من نوعها إلى NLP بسبب الظواهر الذاتية I.E. قد تختلف الفكاهة إلى النوع الاجتماعي وا
التعرف الفكاهي هو مهمة صعبة في معالجة اللغة الطبيعية.تقدم هذه الوثيقة مناهجاتي للكشف عن الفكاهة والجريمة من النص المحدد.تتضمن هذه المهمة مهام 2: المهمة 1 التي تحتوي على 3 مجموعات فرعية (1A، 1B، و 1C)، والمهمة 2. يمكن اعتبار 1A SubTask 1A و 1C مشاكل ا
الهوكاثون: كشف وتصنيف الفكاهة والجريمة "مهمة في المنافسة في Semeval 2021 تركز على الكشف عن مستوى الفكاهة والتقييم في الجمل، وكذلك مستوى اللياء الوارد في هذه النصوص مع النغمات الفكاهية.في هذه الورقة، نقدم نهجا يعتمد على تقنيات التعلم العميقة الأخيرة م