ترغب بنشر مسار تعليمي؟ اضغط هنا

اكتشاف المعروفة المجهولة: تحول المعرفة الضمنية في مجموعة البيانات إلى أمثلة تدريب واضحة للسؤال المرئي الرد

Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering

79   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن الإجابة على السؤال المرئي (VQA) تحديا ليس فقط لأن النموذج يتعين على النموذج التعامل مع معلومات متعددة الوسائط، ولكن أيضا لأنه من الصعب للغاية جمع أمثلة تدريبية كافية --- هناك الكثير من الأسئلة يمكن أن يسأل عن صورة. نتيجة لذلك، يمكن أن يؤدي نموذج VQA الذي تم تدريبه فقط على أمثلة مشروح عن الإنسان بسهولة إلى أن يناسب أساليب سؤال محددة أو محتويات الصورة التي يتم طرحها، مما يترك النموذج جاهل إلى حد كبير حول التنوع الشديد للأسئلة. تعالج الطرق الحالية هذه المشكلة في المقام الأول عن طريق إدخال مهمة مساعدة مثل التأريض البصري أو الاتساق الدائرية أو الدخل. في هذه الورقة، نأخذ نهج مختلف بشكل كبير. وجدنا أن العديد من المجهولين "إلى نموذج VQA المستفاد معروف بالفعل" في DataSet ضمنيا. على سبيل المثال، تكون الأسئلة التي تسأل عن نفس الكائن في صور مختلفة من المرجح؛ يوفر عدد الكائنات المكتشفة أو المشروح في صورة بالفعل الإجابة على عدد السؤال ""، حتى لو لم يتم تفجيح السؤال لهذه الصورة. بناء على هذه الأفكار، نقدم خط أنابيب تكبير البيانات بسيطة Simpleaug لتحويل هذه المعرفة المعروفة إلى أمثلة تدريبية ل VQA. نظظ أن هذه الأمثلة المعززة يمكن أن تحسن أداء نماذج VQA المستفادة، ليس فقط على مجموعة بيانات VQA-CP مع التحولات السابقة للغة ولكن أيضا على DataSet VQA V2 دون مثل هذه التحولات. تفتح طريقةنا كذلك الباب للاستفادة من الصور المسمى ضعيفة أو غير المسماة بطريقة مبدئية لتعزيز نماذج VQA. تتوفر كودنا والبيانات علنا ​​في https://github.com/heendung/simpleach.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

ركزت أبحاث NLP باللغة العبرية إلى حد كبير على التورفولوجيا وبناء جملة، حيث تتوفر مجموعات البيانات المشروحة الغنية بروح التبعيات العالمية.ومع ذلك، تعد مجموعات البيانات الدلالية في العرض القصير، مما يعوق السلف الحاسم في تطوير تكنولوجيا NLP باللغة العبر ية.في هذا العمل، نقدم البسجة، والسؤال الأول يجيب على DataSet في العبرية الحديثة.تتبع DataSet التنسيق والتعبئة المنهجية من المنهجية من التدقيق، وتحتوي على ما يقرب من 3000 من الأمثلة المشروحة، مماثلة لمجموعات بيانات الإجابة على الأسئلة الأخرى بلغات الموارد المنخفضة.نحن نقدم نتائج خط الأساس الأولى باستخدام نماذج مصممة على طراز برت صدر مؤخرا للعبرية، مما يدل على أن هناك مجالا مهما للتحسين في هذه المهمة.
أحدثت النماذج المدربة (E2E) مؤخرا (E2E) لصالح الإجابة على الرسوم البيانية المعرفة (KGQA) نتائج واعدة تستخدم فقط مجموعة بيانات خاضعة للإشراف.ومع ذلك، يتم تدريب هذه النماذج وتقييمها في وضع يتم فيه توفير كيانات سؤال مشروح يدوية للنموذج، مما يترك المهمة المهمة وغير التافهة لقرار الكيان (ER) خارج نطاق تعلم E2E.في هذا العمل، نقوم بتوسيع حدود التعلم E2E ل KGQA لتضمين تدريب مكون ER.يحتاج النموذج الخاص بنا فقط إلى نص الأسئلة والكيانات الإجابة لتدريب، وتوفر نموذج ضمان الجودة المستقل لا يتطلب توفير مكون إضافي ER أثناء وقت التشغيل.نهجنا هو قابل له تماما، وذلك بفضل اعتماده على طريقة حديثة لبناء KGS الفائقة (كوهين وآخرون، 2020).نقوم بتقييم نموذج E2E المدربين على مجموعة بيانات عامين وإظهار أنه يقترب من النماذج الأساسية التي تستخدم الكيانات المشروح اليدوية.
مهارات التفكير العددي ضرورية للإجابة على الأسئلة المعقدة (CQA) على النص.يتطلب opertaions بما في ذلك العد والمقارنة والإضافة والطرح.يتبع نهج ناجح في CQA على النص، وشبكات الوحدات النمطية العصبية (NMNS)، تتبع نموذج المبرمج ومترجم البرامج النمطية النمطية المتخصصة لأداء التفكير التركيبي.ومع ذلك، فإن إطار NMNS لا ينظر في العلاقة بين الأرقام والكيانات في كل من الأسئلة والفقرات.نقترح تقنيات فعالة لتحسين قدرات التفكير العددي NMNS من خلال إدراك السؤال المترجم والتقاط العلاقة بين الكيانات والأرقام.على نفس المجموعة الفرعية من DataSet Drop for CQA على النص، تظهر النتائج التجريبية أن إضافاتنا تتفوق على NMNS الأصلي بنسبة 3.0 نقاط للحصول على درجة F1 الإجمالية.
الإجابة على الأسئلة الأساسية للمعرفة (KBQA) هي الإجابة على أسئلة اللغة الطبيعية المطروحة على قواعد المعرفة (KBS).هذه الأهداف الورقية في تمكين نماذج KBQA القائمة على IR مع قدرة المنطق العددي للإجابة على أسئلة مقيدة ترتيبية.التحدي الرئيسي هو عدم وجود ش روح واضحة حول الخصائص العددية.لمعالجة هذا التحدي، نقترح نموذجا للتفكير العددي الذي يتألف من Numgnn و Numtransformer، يسترشد بإشارات مراقبة ذاتية صريحة.يتم الاحترام من الوحداتتين لتشميز الحجم والخصائص الترتيبية للأرقام على التوالي ويمكن أن تكون بمثابة إضافات نموذجية للأذرع لأي نموذج KBQA المستندة إلى IR لتعزيز قدرة التفكير العددي.تجارب واسعة على معايير KBQA تحقق من فعالية طريقتنا لتعزيز قدرة التفكير العددي لنماذج KBQA القائمة على IR.
أدت طرازات اللغة الكبيرة المدربة مسبقا (PLMS) إلى نجاح كبير في مهام الإجابة على الأسئلة المختلفة (QA) في أزياء نهاية إلى نهاية.ومع ذلك، تم إيلاء القليل من الاهتمام وفقا لمعرفة المعرفة المنطقية لتمييز مهام ضمان الجودة هذه.في هذا العمل، اقترحنا تصنيف ا لدلالات اللازمة لهذه المهام باستخدام SocialIQA كمثال.بناء على فئات المعرفة الاجتماعية الخاصة بنا المسمى DataSet على رأس SocialiQa، نربط نماذج QA العصبية لدمج فئات المعرفة الاجتماعية هذه ومعلومات العلاقة بين قاعدة المعرفة.على عكس العمل السابق، نلاحظ نماذجنا مع تصنيفات دلالية للمعرفة الاجتماعية يمكن أن تحقق أداء مماثل مع نموذج بسيط نسبيا وحجم أصغر مقارنة بالمناهج المعقدة الأخرى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا