البرامج النصية - تسلسل الأحداث النموذجية التي تصف الأنشطة اليومية - تساعد في فهم الروايات من خلال توفير التوقعات، وحل الغموض، وملء المعلومات غير المستحقة. ومع ذلك، حتى الآن أثبتوا صعوبة في المؤلف أو استخراج النص. في هذا العمل، نوضح لأول مرة يمكن تصوير نماذج اللغات العصبية المدربة مسبقا لتوليد البرامج النصية عالية الجودة، في مستويات مختلفة من الحبيبية، لمجموعة واسعة من السيناريوهات اليومية (E.G.، خبز كعكة). للقيام بذلك، نقوم بجمع Growdsourced كبيرة (6.4K) من البرامج النصية التي أمرت جزئيا (المسمى المحترفات)، وهي أكبر بكثير من مجموعات البيانات السابقة، وتطوير النماذج التي تولد البرامج النصية من خلال الجمع بين توليد اللغة والتنبؤ بنية الرسم البياني. نحدد اثنين من المهام التكميلية: (1) التنبؤ الحافة: بالنظر إلى السيناريو والأحداث غير المدرجة، قم بتنظيم الأحداث في البرنامج النصي ساري المفعول (ربما بالترتيب الجزئي)، و (2) جيل البرنامج النصي: معطى سيناريو فقط، توليد الأحداث وتنظيمها في البرنامج النصي (ربما النظام الجزئي). تظهر تجاربنا أن نماذجنا تؤدي جيدا (على سبيل المثال، F1 = 75.7 في المهمة (1))، مما يوضح نهجا جديدا للتغلب على الحواجز السابقة أمام جمع البرنامج النصي. نظهر أيضا أنه لا يزال هناك مجال مهم للتحسين نحو أداء مستوى الإنسان. معا، توفر المهام الخاصة بنا ومجموعة البيانات والنماذج اتجاها بحثا جديدا لتعلم معرفة البرنامج النصي.
Scripts -- prototypical event sequences describing everyday activities -- have been shown to help understand narratives by providing expectations, resolving ambiguity, and filling in unstated information. However, to date they have proved hard to author or extract from text. In this work, we demonstrate for the first time that pre-trained neural language models can be finetuned to generate high-quality scripts, at varying levels of granularity, for a wide range of everyday scenarios (e.g., bake a cake). To do this, we collect a large (6.4k) crowdsourced partially ordered scripts (named proScript), that is substantially larger than prior datasets, and develop models that generate scripts by combining language generation and graph structure prediction. We define two complementary tasks: (i) edge prediction: given a scenario and unordered events, organize the events into a valid (possibly partial-order) script, and (ii) script generation: given only a scenario, generate events and organize them into a (possibly partial-order) script. Our experiments show that our models perform well (e.g., F1=75.7 on task (i)), illustrating a new approach to overcoming previous barriers to script collection. We also show that there is still significant room for improvement toward human level performance. Together, our tasks, dataset, and models offer a new research direction for learning script knowledge.
References used
https://aclanthology.org/
Most undeciphered lost languages exhibit two characteristics that pose significant decipherment challenges: (1) the scripts are not fully segmented into words; (2) the closest known language is not determined. We propose a decipherment model that han
In this paper, we introduce the task of predicting severity of age-restricted aspects of movie content based solely on the dialogue script. We first investigate categorizing the ordinal severity of movies on 5 aspects: Sex, Violence, Profanity, Subst
Generating informative and appropriate responses is challenging but important for building human-like dialogue systems. Although various knowledge-grounded conversation models have been proposed, these models have limitations in utilizing knowledge t
For updating the translations of Japanese statutes based on their amendments, we need to consider the translation focality;'' that is, we should only modify expressions that are relevant to the amendment and retain the others to avoid misconstruing i
Abstract We study learning named entity recognizers in the presence of missing entity annotations. We approach this setting as tagging with latent variables and propose a novel loss, the Expected Entity Ratio, to learn models in the presence of syste