المحادثات عبر الإنترنت تشمل أكثر من مجرد نص.على نحو متزايد، تعمل الاستجابات القائمة على الصور مثل الميمات وحلويات الرسوم المتحركة استجابات معترف بها ثقافيا وغالبا ما تكون روح الدعابة في المحادثة.ومع ذلك، في حين أن NLP تم توسيعها إلى نماذج متعددة الوسائط، فإن أنظمة حوار المحادثة تركز إلى حد كبير على توليد الردود النصية فقط.هنا، نقدم مجموعة بيانات جديدة تبلغ 1.56 مليون محادثة Text-GIF تتحول وإدخال نموذج محادثة متعددة الوسائط جديد Pepe جمبري الملك لتحديد الردود القائمة على GIF.نوضح أن نموذجنا ينتج استجابات GIF ذات الصلة وعالية الجودة، وفي تجربة مراقبة عشوائية كبيرة ترد على المستخدمين الحقيقيين، نظين على أن ردودنا النموذجية لدينا مع صور متحركة يتم استلامها بشكل أفضل من قبل المجتمع.