تركز أنظمة الكشف عن الساركاز الموجودة على استغلال العلامات اللغوية أو السياق أو البثور على مستوى المستخدم. ومع ذلك، تشير الدراسات الاجتماعية إلى أن العلاقة بين المؤلف والجمهور يمكن أن تكون ذات صلة بنفس القدر لاستخدام السخرية وتفسيرها. في هذا العمل، نقترح إطارا بالاستفادة المشتركة (1) سياق مستخدم من تغريداتهم التاريخية مع (2) المعلومات الاجتماعية من حي المستخدم في رسم بياني تفاعل، إلى السياق تفسير المنشور. نحن نميز بين الهوية المتصورة والمبلغ عنها الذاتي. نستخدم شبكات انتباه الرسوم البيانية (GAT) عبر المستخدمين والتويت في مؤشر ترابط محادثة، جنبا إلى جنب مع العديد من تمثيلات سجل المستخدم كثيفة. بصرف النظر عن تحقيق نتائج حديثة على مجموعة البيانات التي تم نشرها مؤخرا من مستخدمي Twitter مؤخرا مع تغريدات ثلاثية العدد 30K، قم بإضافة تغريدات 10M Unabeled كسياق، تشير تجاربنا إلى أن شبكة الرسم البياني تساهم في تفسير النوايا الساخرة للمؤلف أكثر من للتنبؤ بتصور السخرية من قبل الآخرين.
Existing sarcasm detection systems focus on exploiting linguistic markers, context, or user-level priors. However, social studies suggest that the relationship between the author and the audience can be equally relevant for the sarcasm usage and interpretation. In this work, we propose a framework jointly leveraging (1) a user context from their historical tweets together with (2) the social information from a user's neighborhood in an interaction graph, to contextualize the interpretation of the post. We distinguish between perceived and self-reported sarcasm identification. We use graph attention networks (GAT) over users and tweets in a conversation thread, combined with various dense user history representations. Apart from achieving state-of-the-art results on the recently published dataset of 19k Twitter users with 30K labeled tweets, adding 10M unlabeled tweets as context, our experiments indicate that the graph network contributes to interpreting the sarcastic intentions of the author more than to predicting the sarcasm perception by others.
المراجع المستخدمة
https://aclanthology.org/
تلقى الكشف عن اللغة الهجومية (القديم) اهتماما متزايدا بسبب تأثيرها المجتمعي.يوضح العمل الحديث أن الأساليب القائمة على المحولات ثنائية الاتجاه تحصل على أداء مثير للإعجاب في القديم.ومع ذلك، فإن هذه الأساليب تعتمد عادة على مجموعات البيانات القديمة ذات ا
تعاني الكشف عن الكلام والكشف عن الألفاظ النبأ من البيانات الخاصة بالبيانات، وخاصة لغات أخرى غير الإنجليزية، بسبب الطبيعة الذاتية للمهام وتوافق التعليق التوضيحي الناتج عن الشركة الحالية.في هذه الدراسة، نقوم بتحديد الفئات الفرعية الملتزمة في وظائف Word
نقدم HATEBERT، نموذج BERT الذي تم تدريبه على إعادة تدريب للكشف عن اللغة المسيئة باللغة الإنجليزية.تم تدريب النموذج على RAL-E، وهي مجموعة بيانات واسعة النطاق من تعليقات Reddit باللغة الإنجليزية من المجتمعات المحظورة لكونها مسيئة أو بغيضة حيث قمنا بإتا
تشكل الميمات البغيضة تحديا فريدا لأنظمة تعلم الآلات الحالية لأن رسالتهم مشتقة من كل من الطرائق النصية والمرئية.لهذا الغرض، أصدر Facebook تحدي الميمات البغيض، مجموعة بيانات من الميمات ذات التسميات التوضيحية النصية المستخلصة مسبقا، لكن من غير الواضح ما
تمت دراسة AcoNecoders Varitional كهدوء واعد لنموذج تعيينات واحدة إلى العديد من السياق للاستجابة في توليد استجابة الدردشة.ومع ذلك، غالبا ما تفشل في تعلم التعيينات المناسبة.أحد أسباب هذا الفشل هو التناقض بين الاستجابة وأخذ عينات متغير كامنة من توزيع تق