يتعرض التواصل مع البشر صعبة بالنسبة ل AIS لأنه يتطلب فهما مشتركا للعالم والمعقدين المعقدة (على سبيل المثال، الاستعارات أو التظليل)، وفي بعض الأحيان إيماءات متعددة الوسائط (E.G.، مشيرا بإصبع، أو سهم في رسم تخطيطي). نحن نبحث في هذه التحديات في سياق الأكوناري، وهي لعبة تعاونية للرسم والتخمين على أساس المخيث، يشكل تحديا جديدا لمجتمع البحث. في الأونلاري، يحاول تخميس تحديد عبارة أن درج يرسم عن طريق تأليف الرموز، ويعزز الدرج بشكل دائم الرسم لمساعدة التخمين في الاستجابة. غالبا ما يستخدم هذا الخلف والمشاهد الكانيكية واستعارة مرئية أو مؤلفات أيقونة للتعبير عن الكلمات الصعبة، مما يجعلها اختبارا مثاليا لخلط اللغة والاتصال المرئي / الرمزي في AI. نقترح نماذج للعب Iconary وتدريبها على أكثر من 55000 مباراة بين اللاعبين البشريين. نماذجنا هي لاعبين ماهرين ويمكنهم استخدام المعرفة العالمية في نماذج اللغة للعب مع الكلمات غير المرئية أثناء التدريب.
Communicating with humans is challenging for AIs because it requires a shared understanding of the world, complex semantics (e.g., metaphors or analogies), and at times multi-modal gestures (e.g., pointing with a finger, or an arrow in a diagram). We investigate these challenges in the context of Iconary, a collaborative game of drawing and guessing based on Pictionary, that poses a novel challenge for the research community. In Iconary, a Guesser tries to identify a phrase that a Drawer is drawing by composing icons, and the Drawer iteratively revises the drawing to help the Guesser in response. This back-and-forth often uses canonical scenes, visual metaphor, or icon compositions to express challenging words, making it an ideal test for mixing language and visual/symbolic communication in AI. We propose models to play Iconary and train them on over 55,000 games between human players. Our models are skillful players and are able to employ world knowledge in language models to play with words unseen during training.
References used
https://aclanthology.org/
We present EMISSOR: a platform to capture multimodal interactions as recordings of episodic experiences with explicit referential interpretations that also yield an episodic Knowledge Graph (eKG). The platform stores streams of multiple modalities as
Large-scale multi-modal classification aim to distinguish between different multi-modal data, and it has drawn dramatically attentions since last decade. In this paper, we propose a multi-task learning-based framework for the multimodal classificatio
This paper introduces a new video-and-language dataset with human actions for multimodal logical inference, which focuses on intentional and aspectual expressions that describe dynamic human actions. The dataset consists of 200 videos, 5,554 action l
Internet memes have become powerful means to transmit political, psychological, and socio-cultural ideas. Although memes are typically humorous, recent days have witnessed an escalation of harmful memes used for trolling, cyberbullying, and abuse. De
We investigate if a model can learn natural language with minimal linguistic input through interaction. Addressing this question, we design and implement an interactive language learning game that learns logical semantic representations compositional