في حين أن فهم اللغة الطبيعية لا يزال الفهم المستندات الطويلة تحديا مفتوحا، غالبا ما تحتوي هذه الوثائق على معلومات هيكلية يمكنها إبلاغ تصميم النماذج التي ترميزها.البرامج النصية للأفلام هي مثال لمثل هذه النصوص النيكلية منظم، يتم تجزئة البرامج النصية في مشاهد، والتي تتحلل في الحوار والمكونات الوصفية.في هذا العمل، نقترح بنية عصبية لتشفير هذا الهيكل، والذي ينفذ بقوة على مهام تصنيف العلامات متعددة الملصقات دون استخدام ميزات يدويا.نضيف طبقة من البصيرة عن طريق زيادة وحدة الترجمة ذات القدرة على الترجمة الترجمة الترجمة غير المنشطة، والتي يمكن استخدامها لاستخراج وتصور المسارات السردية.على الرغم من أن هذا العمل يتناول screenplays على وجه التحديد، فإننا نناقش كيف يمكن تعميم النهج الأساسي لمجموعة من الوثائق المهيكلة.
While natural language understanding of long-form documents remains an open challenge, such documents often contain structural information that can inform the design of models encoding them. Movie scripts are an example of such richly structured text -- scripts are segmented into scenes, which decompose into dialogue and descriptive components. In this work, we propose a neural architecture to encode this structure, which performs robustly on two multi-label tag classification tasks without using handcrafted features. We add a layer of insight by augmenting the encoder with an unsupervised interpretability' module, which can be used to extract and visualize narrative trajectories. Though this work specifically tackles screenplays, we discuss how the underlying approach can be generalized to a range of structured documents.
المراجع المستخدمة
https://aclanthology.org/
عندما ينتشر خطاب الكراهية على وسائل التواصل الاجتماعي والمجتمعات عبر الإنترنت، يستمر البحث في العمل على الكشف التلقائي.في الآونة الأخيرة، كان أداء الاعتراف يتزايد بفضل التقدم في التعلم العميق وإدماج ميزات المستخدم.يحقق هذا العمل في الآثار التي يمكن أ
المحادثات الإنسانية تتطور بشكل طبيعي حول مواضيع مختلفة والتحرك بطلاقة بينهما.في البحوث على أنظمة الحوار، غالبا ما يتم تجاهل القدرة على الانتقال بنشاط وسلاسة إلى مواضيع جديدة.في هذه الورقة، نقدم TIAGE، وهو مؤشر مربع حوار مدرك مواضيع جديد يستخدم باستخد
تتضمن النهج الحديثة لإملاء مشكلة تصحيح الأخطاء الإملائي نماذج SEQ2SEQ القائمة على المحولات، والتي تتطلب مجموعات تدريبية كبيرة وتعاني من وقت الاستدلال البطيء؛وتسلسل نماذج وضع التسلسل المستندة إلى ترميز المحولات مثل بيرت، والتي تنطوي على مساحة تسمية ال
نهج تحديد استعارة الحديثة النظر أساسا في ميزات النص السياقية في غضون جملة أو إدخال ميزات لغوية خارجية إلى النموذج. لكنهم عادة ما يتجاهلون المعلومات الإضافية التي يمكن أن توفرها البيانات، مثل معلومات الاستعارة السياقية ومعلومات الخطاب الأوسع نطاقا. في
تصنيف النص القصير هو مهمة أساسية في معالجة اللغة الطبيعية.من الصعب بسبب عدم وجود معلومات السياق والبيانات المسمى في الممارسة العملية.في هذه الورقة، نقترح طريقة جديدة تسمى SHINE، والتي تعتمد على الشبكة العصبية الرسم البيانية (GNN)، لتصنيف النص القصير.