ترغب بنشر مسار تعليمي؟ اضغط هنا

Iconary: لعبة قوية قائمة على اختبار التواصل متعدد الوسائط بالرسومات والنص

Iconary: A Pictionary-Based Game for Testing Multimodal Communication with Drawings and Text

256   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتعرض التواصل مع البشر صعبة بالنسبة ل AIS لأنه يتطلب فهما مشتركا للعالم والمعقدين المعقدة (على سبيل المثال، الاستعارات أو التظليل)، وفي بعض الأحيان إيماءات متعددة الوسائط (E.G.، مشيرا بإصبع، أو سهم في رسم تخطيطي). نحن نبحث في هذه التحديات في سياق الأكوناري، وهي لعبة تعاونية للرسم والتخمين على أساس المخيث، يشكل تحديا جديدا لمجتمع البحث. في الأونلاري، يحاول تخميس تحديد عبارة أن درج يرسم عن طريق تأليف الرموز، ويعزز الدرج بشكل دائم الرسم لمساعدة التخمين في الاستجابة. غالبا ما يستخدم هذا الخلف والمشاهد الكانيكية واستعارة مرئية أو مؤلفات أيقونة للتعبير عن الكلمات الصعبة، مما يجعلها اختبارا مثاليا لخلط اللغة والاتصال المرئي / الرمزي في AI. نقترح نماذج للعب Iconary وتدريبها على أكثر من 55000 مباراة بين اللاعبين البشريين. نماذجنا هي لاعبين ماهرين ويمكنهم استخدام المعرفة العالمية في نماذج اللغة للعب مع الكلمات غير المرئية أثناء التدريب.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم انبعاثات: منصة لالتقاط التفاعلات متعددة الوسائط كتسجيلات تجارب عرضية مع تفسيرات مرجعية واضحة والتي تسفر عن رسم بياني للمعرفة العرضي (EKG). تقوم المنصة بتخزين تدفقات طرائق متعددة كإشارات متوازية. يتم تجزئة كل إشارة ومشروحة بشكل مستقل مع التفسير. يتم تعيين التعليقات التوضيحية في نهاية المطاف للهيوانات الصريحة والعلاقات في EKG. وبينما نحن شرائح إشارة الأرض من طرائق مختلفة إلى نفس تمثيلات الحالة، فإننا نرتفي أيضا طرائق مختلفة في بعضها البعض. فريد من نوعه ل EKG لدينا هو أنه يقبل تفسيرات مختلفة عبر الطرائق والمصادر والخبرات ودعم المنطق بشأن المعلومات المتعارضة وعدم اليقين التي قد تنجم عن تجارب متعددة الوسائط. يمكن أن يسجل EMISSOR والتعليق التجارب في العالم الافتراضي والعال الحقيقي، والجمع بين البيانات، وتقييم سلوك النظام وأدائها لتحقيق الأهداف المحددة مسبقا ولكن أيضا نموذج تراكم المعرفة والتفسيرات في الرسم البياني المعرفي نتيجة لهذه التجارب الباقية.
تهدف التصنيف متعدد الوسائط واسع النطاق إلى التمييز بين مختلف البيانات متعددة الوسائط، وقد لفت الانتباه بشكل كبير منذ العقد الماضي. في هذه الورقة، نقترح إطارا متعدد المهام في مجال التعلم لمهمة التصنيف المتعدد الوسائط، والتي تتكون من فرعين: فرع متعدد ا لأضوانات متعدد الوسائط وفرع النمذجة متعددة الوسائط المستنتيت بالاهتمام. يمكن أن يتلقى AutoNcoder متعدد الوسائط ميزات متعددة الوسائط والحصول على المعلومات التفاعلية التي تسمى ميزة التشفير متعددة الوسائط، واستخدام هذه الميزة لإعادة تكوين جميع بيانات الإدخال. بالإضافة إلى ذلك، يمكن استخدام ميزة التشفير المتعددة مشروط لإثراء بيانات DataSet RAW، وتحسين أداء مهام المصب (مثل مهمة التصنيف). أما بالنسبة لفرع النمذجة المتعددة الأبعاد القائم على الانتباه، فإننا نوصي أولا آلية الاهتمام لجعل النموذج يركز على الميزات المهمة، ثم نستخدم ميزة التشفير متعددة الوسائط لإثراء معلومات الإدخال، وتحقيق أداء أفضل. نقوم بإجراء تجارب مكثفة على مجموعة بيانات مختلفة، توضح النتائج فعالية الإطار المقترح.
تقدم هذه الورقة مجموعة بيانات جديدة للفيديو واللغة مع إجراءات بشرية للاستدلال المنطقي متعدد الوسائط، والتي تركز على التعبيرات المتعمدة وجوقية تصف الإجراءات البشرية الديناميكية.تتكون DataSet من 200 فيديو، 5554 ملصقات عمل، و 1،942 ثلاثة توائم عمل من ال نموذج (الموضوع، المسند، كائن) يمكن ترجمته بسهولة إلى تمثيلات دلالية منطقية.من المتوقع أن تكون DataSet مفيدة لتقييم أنظمة الاستدلال متعددة الوسائط بين مقاطع الفيديو والجمل المعقدة الدلوية بما في ذلك النفي والكمية.
أصبحت ميمات الإنترنت وسيلة قوية لنقل الأفكار السياسية والنفسية والاجتماعية الثقافية. على الرغم من أن الميمات هي روح الدعابة عادة، فقد شهدت الأيام الأخيرة تصعيدا من الأيمن الضارة المستخدمة في التصيد والتبريد الإلكتروني وسوء المعاملة. يكتشف مثل هذه الم يمات صعبة لأنها يمكن أن تكون مشفرة للغاية ومخفية. علاوة على ذلك، في حين أن العمل السابق قد ركز على جوانب محددة من الميمات مثل خطاب الكراهية والدعاية، إلا أنه كان هناك القليل من العمل على الضرر بشكل عام. هنا، نحن نهدف إلى سد هذه الفجوة. على وجه الخصوص، نركز على مهمتين: (ط) اكتشاف الميمات الضارة، و (2) تحديد الكيانات الاجتماعية التي يستهدفونها. لقد تمديد مجموعة بيانات الضرر التي تم إصدارها مؤخرا، والتي غطت covid-19، مع ميمات إضافية وموضوع جديد: السياسة الأمريكية. لحل هذه المهام، نقترح الزخم (إطار متعدد الوسائط للكشف عن الميمات الضارة وأهدافها) شبكة عميقة عميقة متعددة الوسائط تستخدم وجهات نظر عالمية ومحلية للكشف عن الميمات الضارة. تحلل الزخم بشكل منهجي المنظور المحلي والعالمي لمنظمة الإدخال (في كلا الطرائق) ويربطها في سياق الخلفية. الزخم هو تفسير ومتعمول، وإظهار تجاربنا أنه يتفوق على العديد من نهج التنافس القوية.
نحن نحقق في ما إذا كان هناك نموذج يمكن أن يتعلم اللغة الطبيعية مع الحد الأدنى من المدخلات اللغوية من خلال التفاعل.معالجة هذا السؤال، نقوم بتصميم وتنفيذ لعبة تعليمية تفاعلية تتعلم التمثيلات الدلالية المنطقية تكوين.تتيح لنا لعبتنا استكشاف فوائد الاستدل ال المنطقي لتعلم اللغة الطبيعية.يوضح التقييم أن النموذج يمكن أن يضيق بدقة التمثيلات المنطقية المحتملة للكلمات على مدار اللعبة، مما يشير إلى أن نموذجنا قادر على تعلم تعيينات معجمية من الصفر بنجاح.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا