ترغب بنشر مسار تعليمي؟ اضغط هنا

أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال مرئي (VQA).أولا، نحن ندرب نموذج محاذاة جديدة لتضمين الصور والتعليقات التوضيحية في نفس الفضاء، والذي يحقق تحسنا كبيرا في الأداء على استرجاع التعليق على الصورة W.r.T.طرق مماثلة.ثانيا، نظهر أن المحولات متعددة الوسائط متعددة الاسترجاع باستخدام نموذج المحاذاة المدربين يحسن النتائج على VQA عبر خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط طويلة.كلنا إجراء تجارب مكثفة لإثبات وعد هذا النهج، وفحص طلبات جديدة لوقت الاستدلال مثل مؤشرات التبديلات الساخنة.
على الرغم من إظهار قدرات محادثة مثيرة تشبه الإنسان بشكل متزايد، غالبا ما تعاني نماذج الحوار الحديثة من التصحيح الواقعي وحلوي المعرفة (الأسطوانة وآخرون، 2020). في هذا العمل، نستكشف استخدام هياكل الاسترجاع العصبي - التي تظهر مؤخرا لتكون فعالة في الجودة المفتوحة QA (لويس وآخرون، 2020B؛ Izacard and Grav، 2020) - للحصول على الحوار المعرفي، مهمة يمكن القول أنها أكثر تحديا لأنها تتطلب الاستئصال بناء على سياق الحوار متعدد الدورات المعقدة وإنشاء ردود متماسكة للمحادثة. نحن ندرس أنواعا مختلفة من الهندسة مع مكونات متعددة - المستردون والراحة، وكشف ترميز التشفير - بهدف تعظيم قابلية الإصلاحية أثناء الاحتفاظ بقدرة المحادثة. نوضح أن أفضل النماذج لدينا تحصل على أداء حديثة في مهام المحادثة المدرجة في المعرفة. تعرض النماذج إمكانات محادثة في المجال المفتوح، وتعميم بفعالية من السيناريوهات غير ضمن بيانات التدريب، وعلى النحو الذي تم التحقق منه من خلال التقييمات البشرية، يقلل بشكل كبير من المشكلة المعروفة من الهلوسة المعرفة في Statbots الحديثة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا