الكشف التلقائي عن معلومات المؤامرة الحرجة في مراجعات عناصر الوسائط يشكل تحديات فريدة لكل من الحوسبة الاجتماعية واللغويات الحسابية. في هذه الورقة، نقترح إلقاء مشكلة اكتشاف تحيز المفسد في الخطاب عبر الإنترنت مهمة تبسيط النص. نحن تخمين أنه بالنسبة لزوج مستخدم العنصر، فإن مراجعة المستخدم الأكثر بساطة نتعلمه من ملخص عنصر أعلى احتمال تقديم المفسد. يشتمل نموذجنا العصبي على شبكة المحولات المتقدمة لتحتل شدة المفسد في تغريدات المستخدم. شيدنا مجموعة بيانات مستدامة مفلصة عالية الجودة كشط من تغريدات مراجعة غير مرغوبة وقترن بملخص العنوان وبيانات meta المستخرجة من مجال معين من الفيلم. إلى حد كبير، فإن نتائجنا الكمية والنوعية تزن في تأثير أداء وجود الكيان المسمى في ملخصات المؤامرة. أحصى ما يلاحظه على تقسيم وإعادة صياغة التراسل مع المعرفة المقطوعة من الإنجليزية في ويكيبيديا ومضربتها بشكل جيد في مجموعة بيانات الأفلام لدينا، فإن نموذجنا العصبي يظهر لتفوق كلا من خطوط طراز لغة وطيور أحادية الترجمة.
Automatic detection of critical plot information in reviews of media items poses unique challenges to both social computing and computational linguistics. In this paper we propose to cast the problem of discovering spoiler bias in online discourse as a text simplification task. We conjecture that for an item-user pair, the simpler the user review we learn from an item summary the higher its likelihood to present a spoiler. Our neural model incorporates the advanced transformer network to rank the severity of a spoiler in user tweets. We constructed a sustainable high-quality movie dataset scraped from unsolicited review tweets and paired with a title summary and meta-data extracted from a movie specific domain. To a large extent, our quantitative and qualitative results weigh in on the performance impact of named entity presence in plot summaries. Pretrained on a split-and-rephrase corpus with knowledge distilled from English Wikipedia and fine-tuned on our movie dataset, our neural model shows to outperform both a language modeler and monolingual translation baselines.
References used
https://aclanthology.org/
We propose a shared task on training instance selection for few-shot neural text generation. Large-scale pretrained language models have led to dramatic improvements in few-shot text generation. Nonetheless, almost all previous work simply applies ra
Emotion Classification is the task of automatically associating a text with a human emotion. State-of-the-art models are usually learned using annotated corpora or rely on hand-crafted affective lexicons. We present an emotion classification model th
Automatic construction of relevant Knowledge Bases (KBs) from text, and generation of semantically meaningful text from KBs are both long-standing goals in Machine Learning. In this paper, we present ReGen, a bidirectional generation of text and grap
Finding informative COVID-19 posts in a stream of tweets is very useful to monitor health-related updates. Prior work focused on a balanced data setup and on English, but informative tweets are rare, and English is only one of the many languages spok
Text simplification is a valuable technique. However, current research is limited to sentence simplification. In this paper, we define and investigate a new task of document-level text simplification, which aims to simplify a document consisting of m