تقدم هذه الورقة توقعات إطارات دلالية، وهي مهمة تتوقع الإطارات الدلالية التي ستحدث في الجمل العشرة أو 100 أو حتى 1000 شخص في قصة تشغيل. ركز العمل السابق على التنبؤ بالمستقبل الفوري للقصة، مثل واحد إلى بعض الأحكام المقبلة. ومع ذلك، عندما يكتب الروائيون قصص طويلة، فإن توليد بعض الجمل لا يكفي لمساعدتهم على اكتساب نظرة ثاقبة رفيعة المستوى لتطوير قصة المتابعة. في هذه الورقة، نقوم بصياغة قصة طويلة كسلسلة من كتل القصة، "حيث تحتوي كل كتلة على عدد ثابت من الجمل (E.G.، 10 أو 100، أو 200). يسمح لنا هذه الصياغة بالتنبؤ بقص القصة المتابعة تتجاوز نطاق بعض الجمل. نحن نمثل كتلة قصة باستخدام الترددات المصطلح (TF) من الإطارات الدلالية فيها، وتطبيعها من خلال تردد المستندات العكسية لكل إطار (IDF). نجري تجارب توقعات دلالية للإطار على 4794 كتابا من Bookcorpus و 7،962 من الملخصات العلمية من CODA-19، مع أحجام الكتلة تتراوح بين 5 إلى 1000 جمل. تظهر النتائج أن النماذج الآلية يمكن أن تتوقع كتل قصة المتابعة أفضل من خطوط الأساس العشوائية السابقة والإعادة، مما يشير إلى جدوى المهمة. نتعلم أيضا أن النماذج التي تستخدم تمثيل الإطار كيزات تفوق جميع الأساليب الموجودة عندما يكون حجم الكتلة أكثر من 150 جمل. يوضح التقييم البشري أيضا تمثيل الإطار المقترح، عند تصوره كدولة كلمة، مفهومة وممثلا ومحددة للبشر.
This paper introduces Semantic Frame Forecast, a task that predicts the semantic frames that will occur in the next 10, 100, or even 1,000 sentences in a running story. Prior work focused on predicting the immediate future of a story, such as one to a few sentences ahead. However, when novelists write long stories, generating a few sentences is not enough to help them gain high-level insight to develop the follow-up story. In this paper, we formulate a long story as a sequence of story blocks,'' where each block contains a fixed number of sentences (e.g., 10, 100, or 200). This formulation allows us to predict the follow-up story arc beyond the scope of a few sentences. We represent a story block using the term frequencies (TF) of semantic frames in it, normalized by each frame's inverse document frequency (IDF). We conduct semantic frame forecast experiments on 4,794 books from the Bookcorpus and 7,962 scientific abstracts from CODA-19, with block sizes ranging from 5 to 1,000 sentences. The results show that automated models can forecast the follow-up story blocks better than the random, prior, and replay baselines, indicating the feasibility of the task. We also learn that the models using the frame representation as features outperform all the existing approaches when the block size is over 150 sentences. The human evaluation also shows that the proposed frame representation, when visualized as word clouds, is comprehensible, representative, and specific to humans.
المراجع المستخدمة
https://aclanthology.org/