في حين أن الكثير من الأبحاث قد تم في توليف الرسائل النصية إلى صورة، فقد تم إجراء القليل من العمل لاستكشاف استخدام الهيكل اللغوي لنص المدخلات. هذه المعلومات أكثر أهمية بالنسبة لتصور القصة لأن مدخلاتها لها هيكل سرد صريح يحتاج إلى ترجمة إلى تسلسل الصورة (أو قصة مرئية). أظهر العمل المسبق في هذا المجال أن هناك مجالا واسعا للتحسين في تسلسل الصور الناتج من حيث الجودة البصرية والاتساق والأهمية. في هذه الورقة، نستكشف أولا استخدام أجهزة تحليل الدائرة باستخدام بنية متكررة قائمة على المحولات لترميز المدخلات المهيكلة. ثانيا، نشجع المدخلات المنظمة مع معلومات المنطقية ودراسة تأثير هذه المعرفة الخارجية على جيل القصة البصرية. ثالثا، نحن أيضا دمج البنية المرئية عبر المربعات المحيطة والتسمية الكثيفة لتوفير ملاحظات حول الأحرف / الكائنات في الصور التي تم إنشاؤها داخل إعداد تعليمي مزدوج. نظهر أن نماذج التسمية الكثيفة غير الرفية التي تم تدريبها على جينوم المرئي يمكن أن تحسن الهيكل المكاني للصور من مجال مستهدف مختلف دون الحاجة إلى ضبط جيد. نحن ندرب طراز النموذج باستخدام فقدان داخل القصة داخل القصة (بين الكلمات والمناطق الفرعية للصور) وإظهار تحسينات كبيرة في الجودة البصرية. أخيرا، نحن نقدم تحليلا للمعلومات اللغوية والمكانية.
While much research has been done in text-to-image synthesis, little work has been done to explore the usage of linguistic structure of the input text. Such information is even more important for story visualization since its inputs have an explicit narrative structure that needs to be translated into an image sequence (or visual story). Prior work in this domain has shown that there is ample room for improvement in the generated image sequence in terms of visual quality, consistency and relevance. In this paper, we first explore the use of constituency parse trees using a Transformer-based recurrent architecture for encoding structured input. Second, we augment the structured input with commonsense information and study the impact of this external knowledge on the generation of visual story. Third, we also incorporate visual structure via bounding boxes and dense captioning to provide feedback about the characters/objects in generated images within a dual learning setup. We show that off-the-shelf dense-captioning models trained on Visual Genome can improve the spatial structure of images from a different target domain without needing fine-tuning. We train the model end-to-end using intra-story contrastive loss (between words and image sub-regions) and show significant improvements in visual quality. Finally, we provide an analysis of the linguistic and visuo-spatial information.
المراجع المستخدمة
https://aclanthology.org/
عادة ما تعتبر التشفير العصبي للأسماء الطبية الحيوية قوية إذا تم استغلال التمثيلات بشكل فعال لمختلف مهام NLP المصب المختلفة. لتحقيق ذلك، تحتاج المشفر إلى نموذج الدلالات الطبية الحيوية خاصة بالمجال مع تنافس التطبيق العالمي للتطبيق العالمي للإشراف على ا
التنبؤ بالعلامة المستنيرة عن مجموعة من النصوص وقواعد المعرفة المنوية، يجمع بين إكمال الرسوم البيانية المعرفة مع استخراج العلاقات، هي مهمة درس صغيرة نسبيا.النظام الذي يمكن أن يؤدي هذه المهمة له القدرة على تمديد مجموعة تعسفية من جداول قاعدة البيانات ال
استولت رواية القصص الآلية منذ فترة طويلة اهتمام الباحثين في كل من الروايات في الحياة اليومية.تظهر أفضل القصص المصنوعة من قبل الإنسان مؤامرة متماسكة، وأحرف قوية، والالتزام بالأنواع، والأسماك التي لا تزال الدول الحالية من الفن لا تزال تكافح من أجل إنتا
بالنسبة لمعظم مجموعات اللغة والبيانات الموازية إما نادرة أو غير متوفرة ببساطة.لمعالجة هذا والترجمة الآلية غير المرفوعة (UMT) باستغلال كميات كبيرة من البيانات الأحادية من خلال استخدام تقنيات توليد البيانات الاصطناعية مثل الترجمة الخلفية والتوزيع وبينم
يتناول هذا البحث الزمن النفسي في القصة القرآنية، فيبدأ بعرض الزمن النفسي، فيعرّفه و يبيّن تسمياته المتعددة و أسبابها، من زمن ذاتي و داخلي و زمن الأنا. ثم ينتقل للحديث عن الزمن النفسي في الأدب العربي، فيبدأ بالشعر فيعرض بعض الأبيات الشعرية التي يظهر ف