يتعرض التواصل مع البشر صعبة بالنسبة ل AIS لأنه يتطلب فهما مشتركا للعالم والمعقدين المعقدة (على سبيل المثال، الاستعارات أو التظليل)، وفي بعض الأحيان إيماءات متعددة الوسائط (E.G.، مشيرا بإصبع، أو سهم في رسم تخطيطي). نحن نبحث في هذه التحديات في سياق الأكوناري، وهي لعبة تعاونية للرسم والتخمين على أساس المخيث، يشكل تحديا جديدا لمجتمع البحث. في الأونلاري، يحاول تخميس تحديد عبارة أن درج يرسم عن طريق تأليف الرموز، ويعزز الدرج بشكل دائم الرسم لمساعدة التخمين في الاستجابة. غالبا ما يستخدم هذا الخلف والمشاهد الكانيكية واستعارة مرئية أو مؤلفات أيقونة للتعبير عن الكلمات الصعبة، مما يجعلها اختبارا مثاليا لخلط اللغة والاتصال المرئي / الرمزي في AI. نقترح نماذج للعب Iconary وتدريبها على أكثر من 55000 مباراة بين اللاعبين البشريين. نماذجنا هي لاعبين ماهرين ويمكنهم استخدام المعرفة العالمية في نماذج اللغة للعب مع الكلمات غير المرئية أثناء التدريب.
Communicating with humans is challenging for AIs because it requires a shared understanding of the world, complex semantics (e.g., metaphors or analogies), and at times multi-modal gestures (e.g., pointing with a finger, or an arrow in a diagram). We investigate these challenges in the context of Iconary, a collaborative game of drawing and guessing based on Pictionary, that poses a novel challenge for the research community. In Iconary, a Guesser tries to identify a phrase that a Drawer is drawing by composing icons, and the Drawer iteratively revises the drawing to help the Guesser in response. This back-and-forth often uses canonical scenes, visual metaphor, or icon compositions to express challenging words, making it an ideal test for mixing language and visual/symbolic communication in AI. We propose models to play Iconary and train them on over 55,000 games between human players. Our models are skillful players and are able to employ world knowledge in language models to play with words unseen during training.
المراجع المستخدمة
https://aclanthology.org/