Aimh في مهمة Semeval-2021 6: تصنيف متعدد الوسائط باستخدام مجموعة من نماذج المحولات


الملخص بالعربية

تصف هذه الورقة النظام المستخدم من قبل فريق Aimh للتعامل مع المهمة السامية 6. نقترح نهج يعتمد على بنية بناء على نموذج المحول لمعالجة المحتوى متعدد الوسائط (النص والصور) في الميمات.بنية لدينا، تسمى DVTT (محول نصي مرئي مزدوج)، تقترب من المهام الفرعية 1 و 3 من المهمة 6 كمشاكل تصنيف متعددة التسميات، حيث تتم معالجة نص و / أو صور ميمي، واحتمالات وجود كل إقناع محتمليتم إرجاع التقنية نتيجة لذلك.يستخدم DVTT شبكتان كاملا من المحولات التي تعمل على النص والصور مشروطة بشكل متبادل.يعمل أحد الطرائقين كأداة رئيسية والثانية التدخل في إثراء أول واحد، وبالتالي الحصول على طريقتين مميزين للعمل.يتم دمج مخرجات المحولاتين عن طريق حساب احتمالات الاستفادة من كل ملصق ممكن، ويتم تدريب الشبكة الشاملة على نهاية إلى نهاية مع فقدان انتروبيا ثنائي.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث