ترغب بنشر مسار تعليمي؟ اضغط هنا

توليد تعليق لعبة سباق من الرؤية واللغة والبيانات المنظمة

Generating Racing Game Commentary from Vision, Language, and Structured Data

155   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقترح مهمة توليد التعليقات تلقائيا عن السباقات في لعبة سباق السيارات، من الرؤية والبيانات العددية والنصية المنظمة. توفر التعليقات معلومات لدعم المتفرجين في فهم الأحداث في السباقات. تحتاج نماذج توليد التعليق إلى تفسير وضع السباق وإنشاء المحتوى الصحيح في اللحظة المناسبة. نحن نقسم المهمة إلى قسمين فرعيين: تحديد توقيت الكلام وتوليد الكلام. نظرا لأن مجموعات البيانات الحالية لا تملك محاذاة بيانات في طرائق متعددة، لم يتم استكشاف هذا الإعداد بعمق. في هذه الدراسة، نقدم مجموعة بيانات جديدة واسعة النطاق تحتوي على بيانات الفيديو المحاذاة، والبيانات العددية المنظمة، والتعليقات المسجلة التي تتكون من 129226 كلمة في 1389 سباقا في لعبة. يكشف تحليلنا أن خصائص التعليقات تتغير مع مرور الوقت أو من وجهات النظر. تشير تجاربنا في المساحات الفرعية إلى أنه لا يزال يمثل تحديا لتشميز رؤية أحدث لرؤية معلومات مفيدة من مقاطع الفيديو لتوليد تعليقات دقيقة. نجعل مجموعة بيانات وتنفيذ خط الأساس متاحة للجمهور لمزيد من البحث.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم انتقاد التمثيل اللغوي المستمدة من النص وحده بسبب نقص الأساس، أي ربط الكلمات مع معانيها في العالم المادي.عرضت نماذج الرؤية واللغة (VL)، التي تم تدريبها بالاشتراك على نص بيانات النص والصورة أو الفيديو كرددا على مثل هذه الانتقادات.ومع ذلك، في حين أظه رت مؤشر الأفلام VL النجاح على مهام متعددة الوسائط مثل الإجابة على السؤال المرئي، فإنه لم يعرف بعد كيف المقارنة بين التمثيلات اللغوية الداخلية أنفسهم بنظرائهم النصي فقط.تقارن هذه الورقة التمثيلات الدلالية المستفادة عبر VL مقابل النص لا يمكن أن تحذر فقط عن نماذج VL الأخيرة باستخدام مجموعة من التحليلات (التجميع والتحقيق والأداء في مهمة الإجابة على سؤال للبلد) في وضع لغة فقط.نجد أن النماذج متعددة الوسائط تفشل في الظهور بشكل كبير من المتغيرات النصية فقط، مما يشير إلى أن العمل المستقبلي مطلوب إذا تم اتباع الاحتجاج متعدد الوسائط بمثابة متابعته كوسيلة لتحسين NLP بشكل عام.
تهدف العبارة الأساسية إلى تعيين العبارات النصية إلى مناطق الصور المرتبطة بها، والتي يمكن أن تكون شرطا أساسيا لسبب متعدد الوسائط ويمكن أن تستفيد المهام التي تتطلب تحديد الكائنات القائمة على اللغة. مع تحقيق نماذج للرؤية واللغة المدربة مسبقا أداء مثير ل لإعجاب عبر المهام، لا يزال غير واضح إذا كان بإمكاننا الاستفادة مباشرة من تضمينهم المستفادين لعبارة التأريض دون ضبط جيد. تحقيقا لهذه الغاية، نقترح طريقة لاستخراج أزواج من منطقة العبارات المتطابقة من تضمين الرؤية واللغة المدربة مسبقا واقتراح أربع أهداف صعبة لتحسين عبارة التأريض النموذجية باستخدام بيانات التسمية التوضيحية للصور دون أي إشارات تأريض خاضعة للإشراف. توضح التجارب في مجموعات بيانات تمثيليتين فعالية أهدافنا، مما يتفوق على نماذج أساسية في كل من إعدادات التأريض الإشراف والإشراف عليها. بالإضافة إلى ذلك، نقوم بتقييم embedings المحاذاة على العديد من المهام الأخرى المصب وإظهار أنه يمكننا تحقيق عبارات أفضل دون التضحية بعموة التمثيل.
يتم تعريف حدود قابلية تطبيق نماذج الرؤية واللغة من خلال تغطية بياناتها التدريبية. تتطلب المهام مثل الرؤية الإجابة على الأسئلة (VQA) في كثير من الأحيان معلومات المنطقية والواقعية تتجاوز ما يمكن تعلمه من مجموعات البيانات الخاصة بمهام المهام. تحقق هذه ا لورقة في حقن المعرفة من قواعد المعرفة العامة للأغراض العامة (KBS) إلى محولات الرؤية واللغة. نحن نستخدم هدف تدريب إضافي يشجع التمثيلات المستفادة على محاذاة مع شرطة الرسم البياني للكيانات المطابقة في KB. ندرس تجريبيا أهمية مختلفة KBS إلى مهام ومعايير متعددة. توفر هذه التقنية فوائد واضحة لاستكشاف السؤال المطلقة على المعرفة (OK-VQA، FVQA) من خلال التقاط المعرفة الدلالية والعلدية غائبة عن النماذج القائمة. أكثر من المستغرب، فإن هذه التقنية تفيد أيضا مهام التفكير البصري (NLVR2، SNLI-VE). نقوم بإجراء تجارب التحقيق وإظهار أن حقن المعرفة الإضافية ينتقلان مساحة الشريات التي تحسن من تمثيل أوجه التشابه المعجمية والدلالية. تقنية النموذج الأذرع ويمكن أن توسع قابلية تطبيق أي محول للرؤية واللغة مع الحد الأدنى من النفقات الحاسوبية.
النمذجة اللغوية المعقدة (MLM) هي واحدة من المهام الفرعية الرئيسية في محاكاة لغة الرؤية. في الإعداد عبر الوسائط، يتم ملثمين الرموز في الجملة بشكل عشوائي، والنموذج يتوقع أن تكون الرموز الممكنة التي أعطتها الصورة والنص. في هذه الورقة، نلاحظ العديد من عي وب MLM الرئيسية في هذا الإعداد. أولا، حيث تميل التسميات التوضيحية إلى أن تكون قصيرة، في ثلث الجمل لا يتم أخذ عينات من الجمل. ثانيا، غالبية الرموز الملثمين هي التوقف عن الكلمات وعلامات الترقيم، مما يؤدي إلى نقص في الاستخدام للصورة. إننا نحقق في مجموعة من استراتيجيات التقنيع البديلة المحددة لإعداد العرض المتعلق الذي يتناول هذه أوجه القصور، تهدف إلى توصيف أفضل من النص والصورة في التمثيل المستفاد. عند تدريب ما قبل التدريب على نموذج LXMERT، تتحسن استراتيجياتنا البديلة الخاصة بنا باستمرار عبر استراتيجية التقنيع الأصلية على ثلاثة مهام أسفل المصب، خاصة في إعدادات الموارد المنخفضة. علاوة على ذلك، يتفوق نهجنا قبل التدريب بشكل كبير على نموذج الأساس في مهمة التحقيق الفورية المصممة لاستنباط كائنات الصورة. تشير هذه النتائج وتحليلنا إلى أن طريقتنا تسمح باستفادة أفضل من بيانات التدريب.
يمكن أن يكون كتابة تقارير التصوير الشعاعي للتصوير الشعاعي للثدي عرضة للخططاء وتستغرق وقتا طويلا لأخصائيي الأشعة.في هذه الورقة نقترح طريقة لتوليد تقارير التصوير الشعاعي للثدي المصنوعة من التصوير بالثدي المصنوعة من التصوير بالثديإلى أفضل ما لدينا، يمثل عملنا المحاولة الأولى لإنشاء تقرير التصوير الشعاعي للثدي باستخدام التعلم العميق.نقترح نموذج فك تشفير التشفير الذي يتضمن ترميزا مقصورا ومكيفا محولا.نوضح أن آلية الاهتمام القائمة على المحولات يمكنها الجمع بين المعلومات المرئية والدلية لتوسيع المناطق البارزة على تصوير الثدييات الإدخال وتوليد تقرير تفسير بصريا.تظهر التجارب التي أجريت، بما في ذلك تقييم من قبل عالم الأشعة المعتمدة، فعالية الطريقة المقترحة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا