ترغب بنشر مسار تعليمي؟ اضغط هنا

تعلم تحديد العلاقات ذات الصلة بالسؤال للحصول على سؤال مرئي

Learning to Select Question-Relevant Relations for Visual Question Answering

389   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تستخدم أنظمة الرد على السؤال المرئي الحالي (VQA) بشكل شائع الشبكات العصبية الرسم البيانية (GNNS) لاستخراج العلاقات البصرية مثل العلاقات الدلالية أو العلاقات المكانية. ومع ذلك، فإن الدراسات التي تستخدم GNNS تتجاهل عادة أهمية كل علاقة وتسلسل ببساطة النواتج من ترميز العلاقات المتعددة. في هذه الورقة، نقترح هندسة طبقة جديدة تضرب علاقات مرئية متعددة من خلال آلية الاهتمام لمعالجة هذه المسألة. على وجه التحديد، نقوم بتطوير نموذج يستخدم تضمين السؤال ومضمون مشترك للمشفرين للحصول على أوزان الاهتمام الديناميكي فيما يتعلق بنوع الأسئلة. باستخدام الأوزان الاهتمام بالترفيه، يمكن للنموذج المقترح استخدام ميزات العلاقة المرئية اللازمة لسؤال معين. النتائج التجريبية على DataSet VQA 2.0 توضح أن النموذج المقترح تفوق الفنيات القائمة على الرسم البياني القائمة على شبكة الإنترنت. بالإضافة إلى ذلك، نقوم بتصور وزن الاهتمام وإظهار أن النموذج المقترح يعين وزن أعلى للعلاقات الأكثر صلة بالمسألة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعد المعلومات التي تطلبها خطوة أساسية للسؤال المفتوح الإجابة على جمع الأدلة الكفاءة من كوربوس كبيرة. في الآونة الأخيرة، أثبتت النهج التكرارية أن تكون فعالة للأسئلة المعقدة، من خلال استرداد أدلة جديدة بشكل متكرر في كل خطوة. ومع ذلك، فإن جميع الأساليب التكرارية الحالية تقريبا تستخدم استراتيجيات محددة مسبقا، إما تطبيق نفس وظيفة الاسترجاع عدة مرات أو إصلاح ترتيب وظائف استرجاع مختلفة، والتي لا يمكنها الوفاء بالمتطلبات المتنوعة من الأسئلة المختلفة. في هذه الورقة، نقترح استراتيجية رواية تكيفية تسعى للحصول على معلومات عن أسئلة مفتوحة، وهي AISO. على وجه التحديد، يتم تصميم عملية الاسترجاع والأجوبة بأكملها كعملية اتخاذ قرار Markov الملحوظ جزئيا، حيث يتم تعريف ثلاثة أنواع من عمليات استرجاع (مثل E.G.، BM25 و DPR وارتباط التشعبي) وعملية إجابة واحدة كإجراءات. وفقا للسياسة المستفادة، يمكن ل AISO اختيار إجراءات استرجاع مناسبة ستكيفا للبحث عن الأدلة المفقودة في كل خطوة، بناء على الأدلة التي تم جمعها واستفسلة إعادة صياغة، أو إخراج الإجابة مباشرة عندما تكون مجموعة الأدلة كافية للسؤال. تبين تجارب في تشكيلة مفتوحة و hotpotqa fullwiki، التي تخدم مع معايير قافلة واحدة مفتوحة ومتعددة النطاق، أن AISO تفوقت على جميع الأساليب الأساسية مع استراتيجيات محددة مسبقا فيما يتعلق بتقييمات الاسترجاع والإجابة.
تم إنشاء العديد من مجموعات البيانات لتدريب نماذج الفهم في القراءة، والسؤال الطبيعي هو ما إذا كان يمكننا دمجها لبناء النماذج التي (1) أداء أفضل على جميع مجموعات بيانات التدريب و (2) تعميم وتحويل أفضل بيانات جديدة إلى مجموعات البيانات الجديدة. عالج الع مل المسبق هذا الهدف من خلال تدريب شبكة واحدة في وقت واحد على مجموعات بيانات متعددة، والتي تعمل بشكل جيد في المتوسط ​​ولكنها عرضة للتوزيعات الفرعية المختلفة أو غير الضرورية ويمكن نقلها أسوأ مقارنة بالنماذج المصدر بأكثر تداخل مع DataSet المستهدف. يتمثل نهجنا في نموذج سؤال متعدد البيانات مستجيب مع مجموعة من خبراء DataSet واحد، من خلال تدريب مجموعة من وحدات محول محول خفيفة الوزن وخفيفة الوزن (Houlsby et al.، 2019) التي تشترك في نموذج محول أساسي. نجد أن خبراء مجموعة البيانات متعددة المحولات (صنع) تفوقوا جميع خطوط الأساس لدينا من حيث دقة التوزيع، والأساليب البسيطة القائمة على متوسط ​​المعلمة تؤدي إلى تحسين التعميم الصفرية وأداء قليل من الرصاص، مما يوفر قويا و نقطة انطلاق متعددة الاستخدامات لبناء أنظمة مفهوم القراءة الجديدة.
أظهرت نماذج الرؤية اللغوية المدربة مسبقا أداء رائعا حول مهمة الإجابة على السؤال المرئي (VQA). ومع ذلك، يتم تدريب معظم النماذج المدربة مسبقا من خلال النظر فقط في التعلم أحادي الأونلينغ، وخاصة اللغة الغنية بالموارد مثل اللغة الإنجليزية. تدريب هذه النما ذج للكمات متعددة اللغات طلب موارد الحوسبة عالية ومجموعات بيانات الرؤية متعددة اللغات التي تعيق تطبيقها في الممارسة العملية. لتخفيف هذه التحديات، نقترح نهج تقطير المعرفة لتوسيع نموذج للرؤية باللغة الإنجليزية (المعلم) في نموذج متعدد اللغات ومزوج التعليمات البرمجية (طالبة). على عكس أساليب تقطير المعرفة الحالية، والتي تستخدم فقط الإخراج من الطبقة الأخيرة من شبكة المعلم للتقطير، يتعلم نموذج الطالب الخاص بنا وتقليد المعلم من طبقات متعددة الوسائط (تشفير اللغة والرؤية) بأهداف تقطير مصممة بشكل مناسب لاستخراج المعرفة الإضافية وبعد كما نقوم بإنشاء مجموعة بيانات VQA متعددة اللغات متعددة اللغات متعددة اللغات وخلطها في أحد عشر جهازا مختلفا للنظر في اللغات الهندية والأوروبية المتعددة. تظهر النتائج التجريبية والتحليل المتعمق فعالية نموذج VQA المقترح على نماذج الرؤية المدربة مسبقا في الرؤية المدربة مسبقا في أحد عشر من إعدادات لغة متنوعة.
أدت طرازات اللغة الكبيرة المدربة مسبقا (PLMS) إلى نجاح كبير في مهام الإجابة على الأسئلة المختلفة (QA) في أزياء نهاية إلى نهاية.ومع ذلك، تم إيلاء القليل من الاهتمام وفقا لمعرفة المعرفة المنطقية لتمييز مهام ضمان الجودة هذه.في هذا العمل، اقترحنا تصنيف ا لدلالات اللازمة لهذه المهام باستخدام SocialIQA كمثال.بناء على فئات المعرفة الاجتماعية الخاصة بنا المسمى DataSet على رأس SocialiQa، نربط نماذج QA العصبية لدمج فئات المعرفة الاجتماعية هذه ومعلومات العلاقة بين قاعدة المعرفة.على عكس العمل السابق، نلاحظ نماذجنا مع تصنيفات دلالية للمعرفة الاجتماعية يمكن أن تحقق أداء مماثل مع نموذج بسيط نسبيا وحجم أصغر مقارنة بالمناهج المعقدة الأخرى.
في السؤال المرئي الرد على (VQA)، تركز الأساليب الطيفة الموجودة على التفاعل بين الصور والأسئلة. نتيجة لذلك، يتم تقسيم الإجابات إلى الأسئلة أو المستخدمة كملصقات فقط للتصنيف. من ناحية أخرى، تستخدم نماذج Trilinear مثل نموذج CTI بكفاءة معلومات فيما بين ال اعتراضات بين الإجابات والأسئلة والصور، مع تجاهل معلومات المشرفة داخل العملية. مستوحاة من هذه الملاحظة، نقترح إطارا جديدا للتفاعل Trilinear يسمى Mirtt (تعلم تشكيل التفاعل المتعدد الوسائط من محولات Trilinear)، مما يشتمل على آليات الاهتمام لالتقاط علاقات الوسائط المشتركة بين الوسائط والتعديل. علاوة على ذلك، نقوم بتصميم سير عمل من مرحلتين حيث يقلل نموذج Silinear النموذج الحر، مشكلة VQA مفتوحة العضوية في مشكلة VQA متعددة الخيارات. علاوة على ذلك، للحصول على تمثيلات دقيقة وجميلة متعددة الاستخدامات، فإننا قرب ما قبل تدريب Mirtt مع التنبؤ اللغوي الملثمين. تقوم طريقةنا بتحقيق الأداء الحديث في مهمة Visual7W Task و VQA-1.0 متعددة الخيارات ومفتوحة خطوط الأساس Silinear على مجموعات بيانات VQA-2.0 و TDIUC و GQA.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا