اكتسب الكشف عن فكاهة الاهتمام في السنوات الأخيرة بسبب الرغبة في فهم المحتوى الذي تم إنشاؤه من قبل المستخدم بلغة مجازية. ومع ذلك، فإن الخلافات الفردية والثقافية الكبيرة في التصور الفكاهي تجعل من الصعب للغاية جمع مجموعة بيانات الفكاهة على نطاق واسع مع علامات فكاهة موثوقة. نقترح كورالي، وهو إطار لتوليد ملصقات الفكاهة المتصورة على Facebook Works، باستخدام ردود الفعل المستخدم المتاحة بشكل طبيعي على هذه الوظائف مع عدم وجود شرح يدوي مطلوبا. يوفر Choral كل من الملصقات الثنائية والعشرات المستمرة من الفكاهة وغير الفكاهة. نقدم أكبر مجموعة بيانات حتى الآن مع الفكاهة المسمى على المشاركات 785K ذات الصلة إلى Covid-19. بالإضافة إلى ذلك، نقوم بتحليل التعبير عن الفكاهة المرتبطة بالسيارة في وسائل التواصل الاجتماعي عن طريق استخراج ميزات المعمير الدلالية والعاطفية من المشاركات، وبناء نماذج الكشف عن الفكاهة مع أداء مشابه للبشر. يتيح كورالي تطوير نماذج الكشف عن فكاهة واسعة النطاق على أي موضوع ويفتح طريقا جديدا لدراسة الفكاهة على وسائل التواصل الاجتماعي.
Humor detection has gained attention in recent years due to the desire to understand user-generated content with figurative language. However, substantial individual and cultural differences in humor perception make it very difficult to collect a large-scale humor dataset with reliable humor labels. We propose CHoRaL, a framework to generate perceived humor labels on Facebook posts, using the naturally available user reactions to these posts with no manual annotation needed. CHoRaL provides both binary labels and continuous scores of humor and non-humor. We present the largest dataset to date with labeled humor on 785K posts related to COVID-19. Additionally, we analyze the expression of COVID-related humor in social media by extracting lexico-semantic and affective features from the posts, and build humor detection models with performance similar to humans. CHoRaL enables the development of large-scale humor detection models on any topic and opens a new path to the study of humor on social media.
References used
This paper describes the Helsinki--Ljubljana contribution to the VarDial 2021 shared task on social media variety geolocation. Following our successful participation at VarDial 2020, we again propose constrained and unconstrained systems based on the
Mental health is getting more and more attention recently, depression being a very common illness nowadays, but also other disorders like anxiety, obsessive-compulsive disorders, feeding disorders, autism, or attention-deficit/hyperactivity disorders
The speech act of complaining is used by humans to communicate a negative mismatch between reality and expectations as a reaction to an unfavorable situation. Linguistic theory of pragmatics categorizes complaints into various severity levels based o
Sarcasm is a linguistic expression often used to communicate the opposite of what is said, usually something that is very unpleasant with an intention to insult or ridicule. Inherent ambiguity in sarcastic expressions makes sarcasm detection very dif
Social media texts such as blog posts, comments, and tweets often contain offensive languages including racial hate speech comments, personal attacks, and sexual harassment. Detecting inappropriate use of language is, therefore, of utmost importance