الكشف التلقائي عن معلومات المؤامرة الحرجة في مراجعات عناصر الوسائط يشكل تحديات فريدة لكل من الحوسبة الاجتماعية واللغويات الحسابية. في هذه الورقة، نقترح إلقاء مشكلة اكتشاف تحيز المفسد في الخطاب عبر الإنترنت مهمة تبسيط النص. نحن تخمين أنه بالنسبة لزوج مستخدم العنصر، فإن مراجعة المستخدم الأكثر بساطة نتعلمه من ملخص عنصر أعلى احتمال تقديم المفسد. يشتمل نموذجنا العصبي على شبكة المحولات المتقدمة لتحتل شدة المفسد في تغريدات المستخدم. شيدنا مجموعة بيانات مستدامة مفلصة عالية الجودة كشط من تغريدات مراجعة غير مرغوبة وقترن بملخص العنوان وبيانات meta المستخرجة من مجال معين من الفيلم. إلى حد كبير، فإن نتائجنا الكمية والنوعية تزن في تأثير أداء وجود الكيان المسمى في ملخصات المؤامرة. أحصى ما يلاحظه على تقسيم وإعادة صياغة التراسل مع المعرفة المقطوعة من الإنجليزية في ويكيبيديا ومضربتها بشكل جيد في مجموعة بيانات الأفلام لدينا، فإن نموذجنا العصبي يظهر لتفوق كلا من خطوط طراز لغة وطيور أحادية الترجمة.
Automatic detection of critical plot information in reviews of media items poses unique challenges to both social computing and computational linguistics. In this paper we propose to cast the problem of discovering spoiler bias in online discourse as a text simplification task. We conjecture that for an item-user pair, the simpler the user review we learn from an item summary the higher its likelihood to present a spoiler. Our neural model incorporates the advanced transformer network to rank the severity of a spoiler in user tweets. We constructed a sustainable high-quality movie dataset scraped from unsolicited review tweets and paired with a title summary and meta-data extracted from a movie specific domain. To a large extent, our quantitative and qualitative results weigh in on the performance impact of named entity presence in plot summaries. Pretrained on a split-and-rephrase corpus with knowledge distilled from English Wikipedia and fine-tuned on our movie dataset, our neural model shows to outperform both a language modeler and monolingual translation baselines.
المراجع المستخدمة
https://aclanthology.org/
نقترح مهمة مشتركة على اختيار مثيل التدريب لعدد قليل من الجيل العصبي العصبي.أدت نماذج اللغة المحددة مسبقا على نطاق واسع إلى تحسينات مثيرة في جيل نص قليل.ومع ذلك، فإن كل العمل السابق تقريبا يطبق ما عليك سوى أخذ عينات عشوائية لتحديد مثيلات التدريب القلي
التصنيف العاطفي هو مهمة ربط النص تلقائيا بمشاعر بشرية.عادة ما يتم تعلم النماذج من أحدث النماذج باستخدام كورسا المشروح أو الاعتماد على المعجم العاطفي المصنوعة يدويا.نقدم نموذج تصنيف العاطفة لا يتطلب أن تكون كوربوس مشروحة كبيرة تنافسية.نقوم بتجربة نماذ
البناء التلقائي لقواعد المعرفة ذات الصلة (KBS) من النص، وتوليد نص مغزى من KBS هما أهداف طويلة الأمد في تعلم الآلات. في هذه الورقة، نقدم Regen، وهي جيل ثنائي الاتجاه من النص والرأس الرسم البياني الاستفادة من التعزيز لتعزيز الأداء. يتيح لنا الخطية الرس
العثور على مشاركات Covid-19 Information في مجرى تغريدات مفيدة للغاية لمراقبة التحديثات المتعلقة بالصحة.يعمل العمل السابق على إعداد بيانات متوازن وعلى اللغة الإنجليزية، ولكن تغريدات مفيدة نادرة، والإنجليزية ليست سوى واحدة من العديد من اللغات التي يتحد
تبسيط النص هو تقنية قيمة.ومع ذلك، يقتصر البحث الحالي على تبسيط الجملة.في هذه الورقة، نحدد والتحقيق في مهمة جديدة من تبسيط نص المستندات على مستوى المستند، والتي تهدف إلى تبسيط وثيقة تتكون من جمل متعددة.بناء على مقالب ويكيبيديا، نقوم أولا ببناء مجموعة