ترغب بنشر مسار تعليمي؟ اضغط هنا

تعلم الكائنات المرئية الأرضية للحوار المرئي

Learning to Ground Visual Objects for Visual Dialog

281   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الحوار المرئي صعبا لأنه يحتاج إلى الإجابة على سلسلة من الأسئلة المتماسكة بناء على فهم البيئة المرئية. كيفية الأرض الكائنات المرئية ذات الصلة هي واحدة من المشاكل الرئيسية. تستخدم الدراسات السابقة السؤال والتاريخ للحضور في الصورة وتحقيق أداء مرضي، في حين أن هذه الطرق ليست كافية لتحديد الكائنات المرئية ذات الصلة دون أي إرشادات. يحظر التأريض غير المناسب للكائنات المرئية أداء نماذج الحوار المرئي. في هذه الورقة، نقترح نهجا جديدا لتعلم الكائنات المرئية البرية للحوار المرئي، والذي يستخدم آلية تأريض كائنات مرئية جديدة حيث يتم استخدام كل من التوزيعات السابقة والخلفية على الكائنات المرئية لتسهيل التأريض البصرية. على وجه التحديد، يتم استنتاج التوزيع الخلفي على الكائنات المرئية من كل من السياق (التاريخ والأسئلة) والأجوبة، وتضمن التأريض المناسب للأشياء المرئية أثناء عملية التدريب. في هذه الأثناء، يتم استخدام توزيع مسبق، الذي يستنتج من السياق فقط، لتقريب التوزيع الخلفي بحيث يمكن أن تكون الكائنات المرئية المناسبة هي التأريض حتى بدون إجابات أثناء عملية الاستدلال. النتائج التجريبية على مجموعة بيانات V0.9 و V1.0 Visdial تثبت أن نهجنا يحسن النماذج القوية السابقة في كل من الإعدادات الإدارية والتمييزية من خلال هامش هامش.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

بالنظر إلى أهمية بناء أسئلة حوار مرئي جيد (VD)، يدرس العديد من الباحثين موضوعا بموجب إعداد لعبة تخمين صورة Q-Bot-A-Bot، حيث يحتاج السائل إلى رفع سلسلة من الأسئلة لجمع معلومات غير معلنة صورة. على الرغم من التقدم المحرز في التعلم الإشراف (SL) وتعزيز ال تعزيز (RL)، فإن القضايا لا تزال موجودة. أولا، لا توفر الأساليب السابقة إرشادات صريحة وفعالة للمسائل لتوليد أسئلة ذات صلة وبصراحية. ثانيا، يتم إعاقة تأثير RL بواسطة مكون غير كفء، أي خيال، الذي يصنع تنبؤات الصور بناء على الحوار التي تم إنشاؤها وتعيين المكافآت وفقا لذلك. لتعزيز مسائل VD: 1) نقترح اسئلة محسنة للكيان (REEQ) التي تولد أسئلة تحت إشراف الكيانات ذات الصلة وتعلم استراتيجية الاستجواب القائمة على الكيان من الحوار البشرية؛ 2) نقترح خيال معدني قوي ويتم تحسينه ل VD خاصة. تظهر النتائج التجريبية على مجموعة بيانات V1.0 Visdial أن نهجنا يحقق أداء حديثة على كل من مهمة تخمين الصورة وتنوع السؤال. تتحقق الدراسة البشرية مزيدا من أن نموذجنا يولد أسئلة أكثر متعلقة بصريا ومفيدة ومتماسكة.
يفترض أن الحوار المرئي يطلب من محفوظات الحوار إنشاء ردود صحيحة أثناء مربع حوار.ومع ذلك، ليس من الواضح من العمل السابق كيفية حاجة تاريخ حوار الحوار إلى مربع الحوار المرئي.في هذه الورقة، نحدد ما يعنيه سؤال مرئي يحتاج إلى سجل حوار ونصدر مجموعة فرعية من التخمين؟!الأسئلة التي تغير تاريخ حوارهم تماما ردودهم.نقترح تمثيل رواية مفسدية تاريخ حوار حوار بصريا: المنطقة قيد المناقشة.وهو يقيد ميزات الصورة المكانية وفقا لتمثيل الدلالي للتاريخ المستوحى من مفهوم هيكل المعلومات حول السؤال قيد المناقشة. نحن نقيم الهندسة المعمارية على النماذج متعددة الوسائط الخاصة بمهام المهام ونموذج محول البصر lxmert.
اجتذبت نجاح نماذج اللغة السياقية واسعة النطاق اهتماما كبيرا بتحقيق ما يتم ترميزه في تمثيلاتهم.في هذا العمل، نعتبر سؤالا جديدا: إلى أي مدى يتم محاذاة تمثيل السياق للأسماء الخرسانية مع التمثيلات المرئية المقابلة؟نقوم بتصميم نموذج التحقيق الذي يقيم مدى فعالية تميز النصوص النصية فقط في التمييز بين مطابقة العروض المرئية غير المطابقة.تظهر النتائج الخاصة بنا أن تمثيلات اللغة وحدها توفر إشارة قوية لاسترداد تصحيحات الصورة من فئات الكائنات الصحيحة.علاوة على ذلك، فهي فعالة في استرداد حالات محددة من بقع الصور؛يلعب السياق النصي دورا مهما في هذه العملية.نماذج اللغة الترطفة بصريا تتفوق قليلا على نماذج اللغة النصية فقط في حالة استرجاع مثيل، ولكن تحت أداء البشر بشكل كبير.نأمل أن تلهم تحليلاتنا بالبحث في المستقبل في فهم وتحسين القدرات البصرية لنماذج اللغة.
الحوار المرئي هو مهمة الإجابة على سلسلة من الأسئلة التي تأسست في صورة باستخدام سجل الحوار السابق كسياق. في هذه الورقة، ندرس كيفية معالجة تحديين أساسيين لهذه المهمة: (1) التفكير في الهياكل الدلالية الأساسية بين جولات الحوار و (2) تحديد العديد من الإجا بات المناسبة على السؤال المحدد. لمعالجة هذه التحديات، نقترح طريقة لتعليم الرسومات Sparse (SGL) لصياغة مربع حوار مرئي كهزم تعلم هيكل الرسم البياني. ينتشر SGL هياكل الحوار متناثرة بطبيعته من خلال دمج حواف ثنائية وتسهيل وظيفة فقدان هيكلية جديدة. بعد ذلك، نقدم طريقة نقل المعرفة (KT) التي تستخرج تنبؤات الإجابة من نموذج المعلم وتستخدمها باسم ملصقات زائفة. نقترح KT لعلاج أوجه القصور في ملصقات فردية واحدة للحقيقة، والتي تحد بشدة من قدرة نموذج للحصول على إجابات معقولة متعددة. نتيجة لذلك، يحسن نموذجنا المقترح بشكل كبير القدرة على التفكير مقارنة بطرق خط الأساس وتتفوق من الأساليب الحديثة على مجموعة بيانات V1.0 Versdial. يتوفر شفرة المصدر في https://github.com/gicheonkang/sglkt-visdial.
تستخدم أنظمة الرد على السؤال المرئي الحالي (VQA) بشكل شائع الشبكات العصبية الرسم البيانية (GNNS) لاستخراج العلاقات البصرية مثل العلاقات الدلالية أو العلاقات المكانية. ومع ذلك، فإن الدراسات التي تستخدم GNNS تتجاهل عادة أهمية كل علاقة وتسلسل ببساطة الن واتج من ترميز العلاقات المتعددة. في هذه الورقة، نقترح هندسة طبقة جديدة تضرب علاقات مرئية متعددة من خلال آلية الاهتمام لمعالجة هذه المسألة. على وجه التحديد، نقوم بتطوير نموذج يستخدم تضمين السؤال ومضمون مشترك للمشفرين للحصول على أوزان الاهتمام الديناميكي فيما يتعلق بنوع الأسئلة. باستخدام الأوزان الاهتمام بالترفيه، يمكن للنموذج المقترح استخدام ميزات العلاقة المرئية اللازمة لسؤال معين. النتائج التجريبية على DataSet VQA 2.0 توضح أن النموذج المقترح تفوق الفنيات القائمة على الرسم البياني القائمة على شبكة الإنترنت. بالإضافة إلى ذلك، نقوم بتصور وزن الاهتمام وإظهار أن النموذج المقترح يعين وزن أعلى للعلاقات الأكثر صلة بالمسألة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا