ترغب بنشر مسار تعليمي؟ اضغط هنا

EMISSOR: منصة لالتقاط التفاعلات متعددة الوسائط كذكريات وتفسيرات بيئية مع مراجع Ontological قائمة على السيناريو

EMISSOR: A platform for capturing multimodal interactions as Episodic Memories and Interpretations with Situated Scenario-based Ontological References

399   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم انبعاثات: منصة لالتقاط التفاعلات متعددة الوسائط كتسجيلات تجارب عرضية مع تفسيرات مرجعية واضحة والتي تسفر عن رسم بياني للمعرفة العرضي (EKG). تقوم المنصة بتخزين تدفقات طرائق متعددة كإشارات متوازية. يتم تجزئة كل إشارة ومشروحة بشكل مستقل مع التفسير. يتم تعيين التعليقات التوضيحية في نهاية المطاف للهيوانات الصريحة والعلاقات في EKG. وبينما نحن شرائح إشارة الأرض من طرائق مختلفة إلى نفس تمثيلات الحالة، فإننا نرتفي أيضا طرائق مختلفة في بعضها البعض. فريد من نوعه ل EKG لدينا هو أنه يقبل تفسيرات مختلفة عبر الطرائق والمصادر والخبرات ودعم المنطق بشأن المعلومات المتعارضة وعدم اليقين التي قد تنجم عن تجارب متعددة الوسائط. يمكن أن يسجل EMISSOR والتعليق التجارب في العالم الافتراضي والعال الحقيقي، والجمع بين البيانات، وتقييم سلوك النظام وأدائها لتحقيق الأهداف المحددة مسبقا ولكن أيضا نموذج تراكم المعرفة والتفسيرات في الرسم البياني المعرفي نتيجة لهذه التجارب الباقية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتعرض التواصل مع البشر صعبة بالنسبة ل AIS لأنه يتطلب فهما مشتركا للعالم والمعقدين المعقدة (على سبيل المثال، الاستعارات أو التظليل)، وفي بعض الأحيان إيماءات متعددة الوسائط (E.G.، مشيرا بإصبع، أو سهم في رسم تخطيطي). نحن نبحث في هذه التحديات في سياق الأ كوناري، وهي لعبة تعاونية للرسم والتخمين على أساس المخيث، يشكل تحديا جديدا لمجتمع البحث. في الأونلاري، يحاول تخميس تحديد عبارة أن درج يرسم عن طريق تأليف الرموز، ويعزز الدرج بشكل دائم الرسم لمساعدة التخمين في الاستجابة. غالبا ما يستخدم هذا الخلف والمشاهد الكانيكية واستعارة مرئية أو مؤلفات أيقونة للتعبير عن الكلمات الصعبة، مما يجعلها اختبارا مثاليا لخلط اللغة والاتصال المرئي / الرمزي في AI. نقترح نماذج للعب Iconary وتدريبها على أكثر من 55000 مباراة بين اللاعبين البشريين. نماذجنا هي لاعبين ماهرين ويمكنهم استخدام المعرفة العالمية في نماذج اللغة للعب مع الكلمات غير المرئية أثناء التدريب.
يتطلب إجابة السؤال المستندة إلى السيناريو (SQA) على استرداد وقراءة الفقرات من كوربوس كبيرة للإجابة على سؤال محكوم بموجب وصف سيناريو طويل.نظرا لأن السيناريو يحتوي على كلا القصاصات الاسترجاع والكثير من الضوضاء، فإن استرجاع SQA صعب للغاية.علاوة على ذلك، بالكاد يمكن أن يشرف عليه بسبب عدم وجود ملصقات ذات صلة من الفقرات ل SQA.لتلبية التحدي، في هذه الورقة نقترح نموذج قارئ مسترجع مشترك يسمى Jeeves حيث يتم الإشراف على المسترد الضمني فقط باستخدام ملصقات ضمان الجودة عبر آلية ترجيح كلمة جديدة.يتفوق Jeeves بشكل كبير على مجموعة متنوعة من خطوط الأساس القوية على أسئلة متعددة الخيارات في ثلاث مجموعات بيانات SQA.
في حين أن العديد من خطوط أنابيب NLP تفترض أن النصوص النظيفة النظيفة، فإن العديد من النصوص التي نواجهها في البرية، بما في ذلك الغالبية العظمى من المستندات القانونية، ليست نظيفة للغاية، حيث يجري العديد منهم وثائق منظم بصريا (VSDS) مثل PDF. تقوم الأدوات المعالجة التقليدية ل VSDS تركز بشكل أساسي على تجزئة الكلمات وتحليل التخطيط الخشن، في حين أن تحليل الهيكل المنطقي المحلقات الدقيقة (مثل تحديد حدود الفقرة وهرميها) من VSDS هي غير متكسدة. تحقيقا لهذه الغاية، اقترحنا صياغة المهمة كتنبؤ بملميات الانتقال "بين شظايا الرسائل النصية التي تعرض الشظايا إلى شجرة، وتطوير نظام لتعلم الماكينات المستندة إلى ميزة يمبرص إشارات مرئية ونصية ودلية. يتم تخصيص نظامنا بسهولة إلى أنواع مختلفة من VSDS وكانت خطوط الأساس بشكل كبير في تحديد الهياكل المختلفة في VSDS. على سبيل المثال، حصل نظامنا على درجة الكشف عن حدود الفقرة 0.953 أفضل بكثير من أداة PDF-To-to-todly ذات درجة كبيرة مع درجة F1 من 0.739.
هناك اهتمام متزايد بالمساعدين الظاهريين مع قدرات متعددة الوسائط، على سبيل المثال، استنتاج سياق محادثة من خلال فهم المشهد. تعالج مجموعة بيانات محادثات متعددة الوسائط المتعددة (SIMMC) التي تم إصدارها مؤخرا هذا الاتجاه من خلال تمكين البحث عن إنشاء مساعد ين افتراضي، قادرين على مراعاة المشهد الذي يراه المستخدم عند التحدث مع المستخدم ويتفاعل أيضا مع العناصر الموجودة في المشهد. DataSet SIMMC هو رواية في أنه يحتوي على حوار مساعد للمستخدم المشروح بالكامل، ومساعدات موجهة نحو المهام حيث يراقب المستخدم ومشاركة مساعد نفس العناصر المرئية والأخير إجراء إجراءات لتحديث المشهد. أدفع تحدي SIMMC، الذي عقد كجزء من تحدي تكنولوجيا نظام الحوار ثمين (DSTC9)، تطوير النماذج المختلفة التي تضع معا مجموعة جديدة من الفن في مجموعة بيانات SIMMC. في هذا العمل، قارننا وتحليل هذه النماذج لتحديد ما عملت؟ "، والفجوات المتبقية؛ Whatnext؟ '. يوضح تحليلنا أنه على الرغم من أن نماذج اللغة المحددة مسبقا تتكيف مع هذه المجموعة تظهر وعد كبير، فهناك مؤشرات على أن السياق المتعدد غير المستخدمة بالكامل، وهناك حاجة إلى تكامل قاعدة معرفة أفضل وقابل للتطوير. نأمل أن يوفر هذا التحليل الأول من نوع نماذج SIMMC رؤى وفرصا مفيدا لمزيد من البحث في وكلاء المحادثة متعددة الوسائط
اختارت الأبحاث متعددة الوسائط بشكل كبير في مساحة السؤال الرد على المهمة التي يتم تمديدها إلى السؤال المرئي الرد على الرسوم البيانية، والرسوم البيانية الإجابة عليها وكذلك مسألة مساهمة مدخل متعددة الوسائط.ومع ذلك، فإن كل هذه الاستكشافات تنتج إخراج نصي غير مهني كإجابة.في هذه الورقة، نقترح مهمة رواية - MIMOQA - الإدخال المتعدد الوسائط المتعددة الناتج السؤال الرد الذي يكون فيه الإخراج متعدد الوسائط.من خلال التجارب البشرية، نوضح تجريبيا أن هذه النواتج متعددة الوسائط توفر فهما معرفيا أفضل للإجابات.نقترح أيضا إطارا للردا على السؤال متعدد الوسائط، ميكسبرت، يشتمل على اهتماما نصي مشتركا ومرفقيا نحو إنتاج مثل هذا الناتج متعدد الوسائط.تعتمد طريقنا على مجموعة بيانات متعددة الوسائط غير مصنفة لهذه المشكلة من مجموعات البيانات غير المتوفرة للجمهور.نظهر الأداء الفائق ل Mexbert ضد خطوط أساسية قوية على كل من المقاييس التلقائية وكذلك الإنسان.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا