نقترح مهمة توليد التعليقات تلقائيا عن السباقات في لعبة سباق السيارات، من الرؤية والبيانات العددية والنصية المنظمة. توفر التعليقات معلومات لدعم المتفرجين في فهم الأحداث في السباقات. تحتاج نماذج توليد التعليق إلى تفسير وضع السباق وإنشاء المحتوى الصحيح في اللحظة المناسبة. نحن نقسم المهمة إلى قسمين فرعيين: تحديد توقيت الكلام وتوليد الكلام. نظرا لأن مجموعات البيانات الحالية لا تملك محاذاة بيانات في طرائق متعددة، لم يتم استكشاف هذا الإعداد بعمق. في هذه الدراسة، نقدم مجموعة بيانات جديدة واسعة النطاق تحتوي على بيانات الفيديو المحاذاة، والبيانات العددية المنظمة، والتعليقات المسجلة التي تتكون من 129226 كلمة في 1389 سباقا في لعبة. يكشف تحليلنا أن خصائص التعليقات تتغير مع مرور الوقت أو من وجهات النظر. تشير تجاربنا في المساحات الفرعية إلى أنه لا يزال يمثل تحديا لتشميز رؤية أحدث لرؤية معلومات مفيدة من مقاطع الفيديو لتوليد تعليقات دقيقة. نجعل مجموعة بيانات وتنفيذ خط الأساس متاحة للجمهور لمزيد من البحث.
We propose the task of automatically generating commentaries for races in a motor racing game, from vision, structured numerical, and textual data. Commentaries provide information to support spectators in understanding events in races. Commentary generation models need to interpret the race situation and generate the correct content at the right moment. We divide the task into two subtasks: utterance timing identification and utterance generation. Because existing datasets do not have such alignments of data in multiple modalities, this setting has not been explored in depth. In this study, we introduce a new large-scale dataset that contains aligned video data, structured numerical data, and transcribed commentaries that consist of 129,226 utterances in 1,389 races in a game. Our analysis reveals that the characteristics of commentaries change over time or from viewpoints. Our experiments on the subtasks show that it is still challenging for a state-of-the-art vision encoder to capture useful information from videos to generate accurate commentaries. We make the dataset and baseline implementation publicly available for further research.
المراجع المستخدمة
https://aclanthology.org/
تم انتقاد التمثيل اللغوي المستمدة من النص وحده بسبب نقص الأساس، أي ربط الكلمات مع معانيها في العالم المادي.عرضت نماذج الرؤية واللغة (VL)، التي تم تدريبها بالاشتراك على نص بيانات النص والصورة أو الفيديو كرددا على مثل هذه الانتقادات.ومع ذلك، في حين أظه
تهدف العبارة الأساسية إلى تعيين العبارات النصية إلى مناطق الصور المرتبطة بها، والتي يمكن أن تكون شرطا أساسيا لسبب متعدد الوسائط ويمكن أن تستفيد المهام التي تتطلب تحديد الكائنات القائمة على اللغة. مع تحقيق نماذج للرؤية واللغة المدربة مسبقا أداء مثير ل
يتم تعريف حدود قابلية تطبيق نماذج الرؤية واللغة من خلال تغطية بياناتها التدريبية. تتطلب المهام مثل الرؤية الإجابة على الأسئلة (VQA) في كثير من الأحيان معلومات المنطقية والواقعية تتجاوز ما يمكن تعلمه من مجموعات البيانات الخاصة بمهام المهام. تحقق هذه ا
النمذجة اللغوية المعقدة (MLM) هي واحدة من المهام الفرعية الرئيسية في محاكاة لغة الرؤية. في الإعداد عبر الوسائط، يتم ملثمين الرموز في الجملة بشكل عشوائي، والنموذج يتوقع أن تكون الرموز الممكنة التي أعطتها الصورة والنص. في هذه الورقة، نلاحظ العديد من عي
يمكن أن يكون كتابة تقارير التصوير الشعاعي للتصوير الشعاعي للثدي عرضة للخططاء وتستغرق وقتا طويلا لأخصائيي الأشعة.في هذه الورقة نقترح طريقة لتوليد تقارير التصوير الشعاعي للثدي المصنوعة من التصوير بالثدي المصنوعة من التصوير بالثديإلى أفضل ما لدينا، يمثل