ترغب بنشر مسار تعليمي؟ اضغط هنا

تعزيز سؤال الحوار المرئي مع تعلم الإستراتيجية القائمة على الكيان والتخصيص المعزز

Enhancing Visual Dialog Questioner with Entity-based Strategy Learning and Augmented Guesser

231   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

بالنظر إلى أهمية بناء أسئلة حوار مرئي جيد (VD)، يدرس العديد من الباحثين موضوعا بموجب إعداد لعبة تخمين صورة Q-Bot-A-Bot، حيث يحتاج السائل إلى رفع سلسلة من الأسئلة لجمع معلومات غير معلنة صورة. على الرغم من التقدم المحرز في التعلم الإشراف (SL) وتعزيز التعزيز (RL)، فإن القضايا لا تزال موجودة. أولا، لا توفر الأساليب السابقة إرشادات صريحة وفعالة للمسائل لتوليد أسئلة ذات صلة وبصراحية. ثانيا، يتم إعاقة تأثير RL بواسطة مكون غير كفء، أي خيال، الذي يصنع تنبؤات الصور بناء على الحوار التي تم إنشاؤها وتعيين المكافآت وفقا لذلك. لتعزيز مسائل VD: 1) نقترح اسئلة محسنة للكيان (REEQ) التي تولد أسئلة تحت إشراف الكيانات ذات الصلة وتعلم استراتيجية الاستجواب القائمة على الكيان من الحوار البشرية؛ 2) نقترح خيال معدني قوي ويتم تحسينه ل VD خاصة. تظهر النتائج التجريبية على مجموعة بيانات V1.0 Visdial أن نهجنا يحقق أداء حديثة على كل من مهمة تخمين الصورة وتنوع السؤال. تتحقق الدراسة البشرية مزيدا من أن نموذجنا يولد أسئلة أكثر متعلقة بصريا ومفيدة ومتماسكة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الحوار المرئي صعبا لأنه يحتاج إلى الإجابة على سلسلة من الأسئلة المتماسكة بناء على فهم البيئة المرئية. كيفية الأرض الكائنات المرئية ذات الصلة هي واحدة من المشاكل الرئيسية. تستخدم الدراسات السابقة السؤال والتاريخ للحضور في الصورة وتحقيق أداء مرضي، في ح ين أن هذه الطرق ليست كافية لتحديد الكائنات المرئية ذات الصلة دون أي إرشادات. يحظر التأريض غير المناسب للكائنات المرئية أداء نماذج الحوار المرئي. في هذه الورقة، نقترح نهجا جديدا لتعلم الكائنات المرئية البرية للحوار المرئي، والذي يستخدم آلية تأريض كائنات مرئية جديدة حيث يتم استخدام كل من التوزيعات السابقة والخلفية على الكائنات المرئية لتسهيل التأريض البصرية. على وجه التحديد، يتم استنتاج التوزيع الخلفي على الكائنات المرئية من كل من السياق (التاريخ والأسئلة) والأجوبة، وتضمن التأريض المناسب للأشياء المرئية أثناء عملية التدريب. في هذه الأثناء، يتم استخدام توزيع مسبق، الذي يستنتج من السياق فقط، لتقريب التوزيع الخلفي بحيث يمكن أن تكون الكائنات المرئية المناسبة هي التأريض حتى بدون إجابات أثناء عملية الاستدلال. النتائج التجريبية على مجموعة بيانات V0.9 و V1.0 Visdial تثبت أن نهجنا يحسن النماذج القوية السابقة في كل من الإعدادات الإدارية والتمييزية من خلال هامش هامش.
الحوار المرئي هو مهمة الإجابة على سلسلة من الأسئلة التي تأسست في صورة باستخدام سجل الحوار السابق كسياق. في هذه الورقة، ندرس كيفية معالجة تحديين أساسيين لهذه المهمة: (1) التفكير في الهياكل الدلالية الأساسية بين جولات الحوار و (2) تحديد العديد من الإجا بات المناسبة على السؤال المحدد. لمعالجة هذه التحديات، نقترح طريقة لتعليم الرسومات Sparse (SGL) لصياغة مربع حوار مرئي كهزم تعلم هيكل الرسم البياني. ينتشر SGL هياكل الحوار متناثرة بطبيعته من خلال دمج حواف ثنائية وتسهيل وظيفة فقدان هيكلية جديدة. بعد ذلك، نقدم طريقة نقل المعرفة (KT) التي تستخرج تنبؤات الإجابة من نموذج المعلم وتستخدمها باسم ملصقات زائفة. نقترح KT لعلاج أوجه القصور في ملصقات فردية واحدة للحقيقة، والتي تحد بشدة من قدرة نموذج للحصول على إجابات معقولة متعددة. نتيجة لذلك، يحسن نموذجنا المقترح بشكل كبير القدرة على التفكير مقارنة بطرق خط الأساس وتتفوق من الأساليب الحديثة على مجموعة بيانات V1.0 Versdial. يتوفر شفرة المصدر في https://github.com/gicheonkang/sglkt-visdial.
تلخيص ScreenPlay هي مهمة استخراج مشاهد إعلامية من سيناريو.يحتوي ScensingPlay على أحداث نقطة الدوران (TP) التي تغير اتجاه القصة وبالتالي تحديد هيكل القصة بشكل حاسم.وفقا لذلك، يمكن تعريف هذه المهمة باعتبارها مهمة تحديد TP.نقترح استخدام معلومات الحوار، وسمة واحدة من ScreenPlays، بدافع من العمل السابق الذي اكتشف أن TPS لها علاقة مع الحوارات التي تظهر في screenplays.لتعليم نموذج هذه الخصائص، نضيف ميزة حوار إلى إدارة الإدخال.علاوة على ذلك، في محاولة لتحسين الهندسة المعمارية النموذجية للدراسات السابقة، نحل محل LSTM مع محول.لاحظنا أن النموذج يمكن أن يحدد أفضل من TPS في سيناريو عن طريق استخدام معلومات الحوار وأن نموذج يعتمد المحولات تفوق النماذج المستندة إلى LSTM.
يمكن أن تستفيد مهام التعلم المختلفة من الوصول إلى معلومات خارجية عن طرائق مختلفة، مثل النص والصور.ركز العمل الحديث على تعلم الهندسة مع ذكريات كبيرة قادرة على تخزين هذه المعرفة.نقترحنا زيادة شبكات عصبية محول التوليد مع وحدات جلب المعلومات المستندة إلى KNN (KIF).تعلم كل وحدة KIF عملية قراءة للوصول إلى المعرفة الخارجية الثابتة.نحن نطبق هذه الوحدات النمطية لنمذجة الحوار المولاد، وهي مهمة صعبة حيث يجب استرجاع المعلومات بشكل مرني وإدماجها للحفاظ على موضوع وتدفق المحادثة.نوضح فعالية نهجنا من خلال تحديد المعرفة ذات الصلة المطلوبة للحوار دراية ولكن المشاركة من Wikipedia، والصور، وإظهار أن الاستفادة من هذه المعلومات المستردة تعمل على تحسين أداء النموذج، ويتم قياسه بواسطة التقييم التلقائي والإنساني.
لكل مهمة حوار موجهة نحو تحقيق الأهداف ذات أهمية، يجب جمع كميات كبيرة من البيانات للحصول على التعلم المنتهي للنظام الحوار العصبي.جمع هذه البيانات هي عملية مكلفة وتستغرق وقتا طويلا.بدلا من ذلك، نوضح أنه يمكننا استخدام كمية صغيرة فقط من البيانات، والتي تستكمل البيانات من مهمة حوار ذات صلة.فشل التعلم بسذاجة من البيانات ذات الصلة في تحسين الأداء لأن البيانات ذات الصلة يمكن أن تكون غير متسقة مع المهمة المستهدفة.نحن نصف طريقة تعتمد على التعلم التعريفي والتي تتعلم بشكل انتقائي من بيانات مهمة الحوار ذات الصلة.نهجنا يؤدي إلى تحسينات بدقة كبيرة في مهمة الحوار مثال.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا