ترغب بنشر مسار تعليمي؟ اضغط هنا

الحوار متعدد الوسائط مفتوح

Multi-Modal Open-Domain Dialogue

400   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لقد أثبت العمل الحديث في وكلاء المحادثة المفتوحة على أن التحسينات الكبيرة في الإنسانية وتفضيل المستخدم يمكن تحقيقها عبر التحجيم الضخم في كل من بيانات التدريب المسبق وحجم النموذج (Adiwardana et al.، 2020؛ الأسطوانة وآخرون، 2020). ومع ذلك، إذا كنا نريد بناء عملاء مع قدرات تشبه الإنسان، يجب علينا توسيع نطاق التعامل مع النص فقط. موضوع مهم للغاية هو القدرة على رؤية الصور والتواصل حول ما ينظر إليه. بهدف الحصول على البشر للانخراط في حوار متعدد الوسائط، نحقق في مجمع المكونات من وكلاء حوار الوكالة المفتوحة للحكومة من بين الفنون من نماذج الرؤية الحديثة. نحن ندرس دمج مخططات مختلفة من صور الصور واستراتيجيات التدريب المسبق على نطاق واسع على المجال وضبط النطاق، وتظهر أن طرازنا الأفضل الناتج يفوق النماذج الحالية القوية في حوار متعدد الوسائط أثناء التنفيذ في وقت واحد وكذلك سلفها (النص فقط) (الأسطوانة وآخرون، 2020) في محادثة قائمة على النص. إننا كذلك تحقيق وإدماج مكونات السلامة في نموذجنا النهائي، وإظهار أن هذه الجهود لا تقلل من الأداء النموذجي فيما يتعلق بتفضيل الإنسان.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

إن دمج مصادر المعرفة الخارجية بفعالية في المحادثات هي مشكلة طويلة الأمد في أبحاث الحوار مفتوح المجال. إن الأدبيات الموجودة على اختيار المعرفة المفتوحة للمجال محدود ويقتصر بعض الافتراضات الهشة على مصادر المعرفة لتبسيط المهمة الشاملة، مثل وجود عقوبة مع رفة واحدة ذات صلة لكل سياق. في هذا العمل، نقوم بتقييم حالة اختيار معرفة محادثة المحادثة مفتوحة للمجموعات، حيث تظهر المنهجيات الحالية المتعلقة بالبيانات والتقييم معيبة. ثم نحسنها من خلال اقتراح إطار جديد لجمع المعرفة ذات الصلة، وإنشاء مجموعة بيانات معدنية بناء على معالج كوربوس ويكيبيديا (WOW)، والتي نسميها نجاح باهر ++. WOW ++ المتوسطات 8 جمل المعرفة ذات الصلة لكل سياق حوار، واحتضان الغموض المتأصل من اختيار معرفة حوار المجال المفتوح. بعد ذلك، نقدر خوارزميات تصنيف المعرفة المختلفة على هذه البيانات المعززة مع كل من التقييم الجوهري وتدابير خارجية لجودة الاستجابة، والتي تبين أن Rerankers العصبية التي تستخدم WOW ++ يمكن أن تفوق المهاحين المدربين على مجموعات البيانات القياسية.
على الرغم من تحقيق أداء ملحوظ، عادة ما تستخدم أعمال المعرفة المعززة بالمعرفة عادة قاعدة معرفة متجانسة واحدة متجانسة من تغطية المعرفة المحدودة. وبالتالي، فإنهم غالبا ما ينضون في الأساليب التقليدية لأنه لا يمكن ربط جميع الحوارات بإدخالات المعرفة. تقترح هذه الورقة نموذج جيل حوار جديد، مربع حوار MSKE، لحل هذه المشكلة بثلاث مزايا فريدة من نوعها: (1) بدلا من واحد فقط، يمكن حجز MSKE في وقت واحد على الاستفادة من مصادر المعرفة غير المتجانسة المتعددة (بما في ذلك ولكن لا يقتصر على معرفة المنطقية حقائق ومعرفة النص ومعرفة Infobox) لتحسين تغطية المعرفة؛ (2) لتجنب تعارض الموضوع بين السياق ومصادر المعرفة المختلفة، نقترح اختيار مرجعي متعدد التحديد لتحديد السياق / المعرفة بشكل أفضل؛ (3) نقترح جيل متعدد المراجع لتوليد ردود إعلامية من خلال الإشارة إلى مراجع توليد متعددة في نفس الوقت. تظهر التقييمات الواسعة على مجموعة بيانات صينية الأداء الفائق لهذا العمل ضد النهج المختلفة من أحدث الأحداث. لأفضل المعرفة لدينا، هذا العمل هو أول من يستخدم المعرفة غير المتجانسة متعددة المصدر في توليد الحوار المحسن في مجال المعرفة.
تزايد نماذج اللغة المدربة مسبقا للمحولات أداء أنظمة حوار المجال المفتوح. Works Prefer Works Simply القائمة على تحويلات قائمة مدربة مسبقا لتوليد النصوص ذات السمات المرغوبة في نهجين عامين: (1) الأساليب القائمة على التدرج: تحديث جميع التمثيلات الكامنة ل لنماذج المدربة مسبقا مع تدرجات من نماذج السمة؛ (2) طرق فك التشفير المرجح: إعادة ترتيب المرشحين من النماذج المدربة مسبقا مع وظائف السمة. ومع ذلك، تؤدي الأساليب المستندة إلى التدرج إلى تكلفة حساب مرتفعة ويمكن بسهولة الحصول عليها بسهولة على مجموعات تدريبية صغيرة، في حين أن طرق فك التشفير المرجحة تعاني بطبيعتها بطبيعتها النموذج المتدرب المحلي المنخفض. في هذا العمل، نقترح نهجا جديدا للتحكم في جيل النماذج اللغوية المدربة مسبقا للمحولات: الإطار Sidecontrol، الذي يهدف إلى فقدان سمات التحكم الجديدة لفقدان إشارات تحكم مفيدة، ويبضاها تؤدي جيدا مع التدريب المحدود للغاية عينات. نقوم بتقييم أسلوبنا المقترح في مجموعات بيانات الحوار المفتوح للمجال المفتوحة، وتظهر النتائج أن إطار Sidecontrol يحتوي على مكافحة تحكم أفضل، وجودة جيل أعلى وكفاءة أفضل عينة من خطوط الأساس القائمة على التدرج والموزن.
أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال مرئي (VQA).أولا، نحن ندرب نموذج محاذاة جديدة لتضمين الصور والتعليقات التوضيحية في نفس الفضاء، والذي يحقق تحسنا كبيرا في الأداء على استرجاع التعليق على الصورة W.r.T.طرق مماثلة.ثانيا، نظهر أن المحولات متعددة الوسائط متعددة الاسترجاع باستخدام نموذج المحاذاة المدربين يحسن النتائج على VQA عبر خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط طويلة.كلنا إجراء تجارب مكثفة لإثبات وعد هذا النهج، وفحص طلبات جديدة لوقت الاستدلال مثل مؤشرات التبديلات الساخنة.
البحث في أنظمة الحوار مفتوح المجال التي تسمح بمواضيع مجانية صعبة في مجال معالجة اللغات الطبيعية (NLP). تم تحسين أداء نظام الحوار مؤخرا من خلال الطريقة التي تستخدم المعرفة المتعلقة بالحوار؛ ومع ذلك، فإن أنظمة الحوار غير الإنجليزية تعاني من إعادة إنتاج أداء أنظمة الحوار باللغة الإنجليزية لأن تأمين المعرفة بنفس اللغة مع نظام الحوار صعب نسبيا. من خلال تجارب مع نظام حوار كوري، تثبت هذه الورقة أن أداء نظام الحوار غير الإنجليزي يمكن تحسينه عن طريق استخدام المعرفة الإنجليزية، وتسليط الضوء على النظام يستخدم المعرفة عبر اللغات. بالنسبة للتجارب، نحن 1) شيدنا نسخة كورية من معالج DataSet Wikipedia، 2) بنيت Korean-English T5 (KE-T5)، وهي نموذج لغة مدرب مسبقا مع كوريا والإنجليزية، و 3) طورت المعرفة وضع نموذج الحوار الكوري على أساس KE-T5. لاحظنا تحسين الأداء في نموذج الحوار الكوري مفتوح المجال حتى تم تقديم المعرفة الإنجليزية فقط. أظهرت النتائج التجريبية أن المعرفة المتأصلة في نماذج اللغة عبر اللغات يمكن أن تكون مفيدة لتوليد الاستجابات في أنظمة الحوار المفتوحة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا