ترغب بنشر مسار تعليمي؟ اضغط هنا

منطق الحوار البصري مع تعلم الرسم البياني المتفرق ونقل المعرفة

Reasoning Visual Dialog with Sparse Graph Learning and Knowledge Transfer

371   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الحوار المرئي هو مهمة الإجابة على سلسلة من الأسئلة التي تأسست في صورة باستخدام سجل الحوار السابق كسياق. في هذه الورقة، ندرس كيفية معالجة تحديين أساسيين لهذه المهمة: (1) التفكير في الهياكل الدلالية الأساسية بين جولات الحوار و (2) تحديد العديد من الإجابات المناسبة على السؤال المحدد. لمعالجة هذه التحديات، نقترح طريقة لتعليم الرسومات Sparse (SGL) لصياغة مربع حوار مرئي كهزم تعلم هيكل الرسم البياني. ينتشر SGL هياكل الحوار متناثرة بطبيعته من خلال دمج حواف ثنائية وتسهيل وظيفة فقدان هيكلية جديدة. بعد ذلك، نقدم طريقة نقل المعرفة (KT) التي تستخرج تنبؤات الإجابة من نموذج المعلم وتستخدمها باسم ملصقات زائفة. نقترح KT لعلاج أوجه القصور في ملصقات فردية واحدة للحقيقة، والتي تحد بشدة من قدرة نموذج للحصول على إجابات معقولة متعددة. نتيجة لذلك، يحسن نموذجنا المقترح بشكل كبير القدرة على التفكير مقارنة بطرق خط الأساس وتتفوق من الأساليب الحديثة على مجموعة بيانات V1.0 Versdial. يتوفر شفرة المصدر في https://github.com/gicheonkang/sglkt-visdial.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تلعب الحساب دورا رئيسيا في فهم اللغة الطبيعية.ومع ذلك، فإن نهج NLP الحالية، وليس فقط نهج Word2VEC التقليدي أو نماذج اللغة المستندة إلى المحولات السياقية، تفشل في تعلم الحساب.ونتيجة لذلك، فإن أداء هذه النماذج محدود عند تطبيقه على التطبيقات المكثفة في المجالات السريرية والمالية.في هذا العمل، نقترح نهج تضمين عدد بسيط بناء على الرسم البياني للمعرفة.نحن نبني رسم بياني للمعرفة يتكون من كيانات الأرقام وعلاقات الحجم.يتم بعد ذلك تطبيق طريقة تضمين الرسم البياني للمعرفة للحصول على ناقلات الرقم.نهجنا سهل التنفيذ، وتجربة نتائج التجربة على مختلف مهام NLP ذات الصلة بالكمال إظهار فعالية وكفاءة طريقتنا.
تم استخدام شبكة الرسم العصبي الرسمية مؤخرا كأداة واعدة في مهمة الإجابة على السؤال المتعدد القفزات. ومع ذلك، فإن التحديثات غير الضرورية والإنشاءات الحافة البسيطة تمنع استخراج سبان إجابة دقيقة بطريقة أكثر مباشرة وتفسيرها. في هذه الورقة، نقترح نموذجا جد يدا من الرسم البياني للسباق الأول (BFR-Graph)، والذي يقدم رسالة جديدة تمرير طريقة تتوافق بشكل أفضل مع عملية التفكير. في Bfr-Graph، يجب أن تبدأ رسالة المنطق من العقدة والسؤال إلى الجمل التالية عقدة هوب من القفزة حتى يتم تمرير جميع الحواف، والتي يمكن أن تمنع كل عقدة بشكل فعال من التعويض الزائد أو تحديث عدة مرات غير ضرورية وبعد لإدخال المزيد من الدلالات، نحدد أيضا الرسم البياني للمنطق كشركة بيانية مرجحة مع النظر في عدد كيانات الحدوث والمسافة بين الجمل. ثم نقدم طريقة أكثر مباشرة وتفسيرا لتجميع الدرجات من مستويات مختلفة من الحبيبات القائمة على GNN. على المتصدرين Hotpotqa، يحقق BFR-Graph المقترح على التنبؤ الحديث في الإجابة على التنبؤ.
تم إحراك المصالح المتزايدة في أنظمة الموافقة على المحادثة (CRS)، والتي تستكشف تفضيل المستخدم من خلال تفاعلات المحادثة من أجل تقديم توصية مناسبة. ومع ذلك، لا يزال هناك نقص في القدرة في CRS الحالية إلى (1) اجتياز مسارات التفكير المتعددة على المعرفة الأ ساسية لإدخال العناصر والسمات ذات الصلة، و (2) ترتيب كيانات مختارة بشكل مناسب بموجب نود النظام الحالي للسيطرة على جيل الاستجابة. لمعالجة هذه المشكلات، نقترح Walker CR-Walker في هذه الورقة، وهو نموذج يقوم بتنفيذ التفكير منظم في الأشجار في رسم بياني للمعرفة، ويولد أعمال حوار إعلامية لتوجيه توليد اللغة. ينظر المخطط الفريد من المنطق المنظم في الأشجار إلى الكيان اجتاز كل قفزة كجزء من أعمال الحوار لتسهيل توليد اللغة، والذي يربط كيف يتم اختيار الكيانات والأعرب عنها. تظهر التقييمات التلقائية والبشرية أن CR-Walker يمكن أن يصل إلى توصية أكثر دقة، وتوليد استجابات أكثر إعلامية وجذابة.
بالنظر إلى أهمية بناء أسئلة حوار مرئي جيد (VD)، يدرس العديد من الباحثين موضوعا بموجب إعداد لعبة تخمين صورة Q-Bot-A-Bot، حيث يحتاج السائل إلى رفع سلسلة من الأسئلة لجمع معلومات غير معلنة صورة. على الرغم من التقدم المحرز في التعلم الإشراف (SL) وتعزيز ال تعزيز (RL)، فإن القضايا لا تزال موجودة. أولا، لا توفر الأساليب السابقة إرشادات صريحة وفعالة للمسائل لتوليد أسئلة ذات صلة وبصراحية. ثانيا، يتم إعاقة تأثير RL بواسطة مكون غير كفء، أي خيال، الذي يصنع تنبؤات الصور بناء على الحوار التي تم إنشاؤها وتعيين المكافآت وفقا لذلك. لتعزيز مسائل VD: 1) نقترح اسئلة محسنة للكيان (REEQ) التي تولد أسئلة تحت إشراف الكيانات ذات الصلة وتعلم استراتيجية الاستجواب القائمة على الكيان من الحوار البشرية؛ 2) نقترح خيال معدني قوي ويتم تحسينه ل VD خاصة. تظهر النتائج التجريبية على مجموعة بيانات V1.0 Visdial أن نهجنا يحقق أداء حديثة على كل من مهمة تخمين الصورة وتنوع السؤال. تتحقق الدراسة البشرية مزيدا من أن نموذجنا يولد أسئلة أكثر متعلقة بصريا ومفيدة ومتماسكة.
تعد تتبع ولاية الحوار مركزيا لأنظمة الحوار الموجهة نحو المهام متعددة المجالات، مسؤولة عن استخراج المعلومات من كلام المستخدمين.نقدم هندسة هجينة جديدة تعزز GPT-2 مع التمثيلات المستمدة من شبكات اهتمام الرسوم البيانية بطريقة تسمح بالتنبؤ السببية والتسلسل لقيم الفتحة.يجسد الهندسة المعمارية النموذجية العلاقات بين الفتحات والتبعية عبر المجالات التي يمكن أن تضيع خلاف ذلك في التنبؤ المتسلسل.نبلغ عن التحسينات في أداء تتبع الدولة في MultiWoz 2.0 مقابل خط الأساس GPT-2 قوي والتحقيق في سيناريو تدريب متقطع مبسط يتم تدريب نماذج DST فقط على التعليقات التوضيحية على مستوى الجلسة ولكن تم تقييمها عند مستوى الدوران.نبلغ أيضا عن تحليلات مفصلة لإظهار فعالية نماذج الرسوم البيانية في DST من خلال إظهار أن وحدات الرسم البياني المقترح تلتقط التبعيات بين الفتحات وتحسين تنبؤات القيم الشائعة في مجالات متعددة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا