تصف هذه الورقة نظامنا المشارك في المهمة 6 من Semeval-2021: تركز المهمة على تصنيف تقنية الدعاية متعددة الوسائط وتهدف إلى تصنيف الصورة والنص في 22 فئة. في هذه الورقة، نقترح استخدام الهندسة المعمارية القائمة على المحولات لفوسات القرائن من كل من الصورة والنص. نستكشف فرعين من التقنيات بما في ذلك ضبط النص المحول مسبقا مع ميزات مرئية ممتدة، وضبط المحولات مسبقا مسبقا. للحصول على الميزات المرئية، اختبرنا كل من ميزات الشبكة بناء على ميزات Resnet والمنطقة البارزة من كاشف كائن مسبقا. من بين المحولات متعددة الوسائط المسبدة مسبقا، نختار Ernie-Vil، وهو محولات من المحولات التي يحضرها اثنين من البخار المحددة على بيانات محاذاة على نطاق واسع على نطاق واسع. تنتج Ernie-Vil Fore-Tuing من أجل مهمتنا أداء أفضل بسبب التمثيل المتعدد الوسائط العام للنص والصورة التي تعلمتها إرني فيل. علاوة على ذلك، نظرا لأن توزيع ملصقات التصنيف غير متوازنة للغاية، فإننا نقوم أيضا بمحاولة أخرى على وظيفة الخسارة ويبلغ نتيجة التجربة أن فقدان البؤري سيؤدي أفضل من فقدان انتروبيا. أخيرا كنا فزنا أولا في Subtask C في المنافسة النهائية.
This paper describes our system participated in Task 6 of SemEval-2021: the task focuses on multimodal propaganda technique classification and it aims to classify given image and text into 22 classes. In this paper, we propose to use transformer based architecture to fuse the clues from both image and text. We explore two branches of techniques including fine-tuning the text pretrained transformer with extended visual features, and fine-tuning the multimodal pretrained transformers. For the visual features, we have tested both grid features based on ResNet and salient region features from pretrained object detector. Among the pretrained multimodal transformers, we choose ERNIE-ViL, a two-steam cross-attended transformers pretrained on large scale image-caption aligned data. Fine-tuing ERNIE-ViL for our task produce a better performance due to general joint multimodal representation for text and image learned by ERNIE-ViL. Besides, as the distribution of the classification labels is very unbalanced, we also make a further attempt on the loss function and the experiment result shows that focal loss would perform better than cross entropy loss. Last we have won first for subtask C in the final competition.
المراجع المستخدمة
https://aclanthology.org/
من بين المهام التي تحفزها انتشار المعلومات الخاطئة، فإن اكتشاف الدعاية تحديا بشكل خاص بسبب عجز التعليقات التوضيحية الدقيقة الدقيقة اللازمة لتدريب نماذج التعلم الآلي.هنا نظهر كيف يمكن الاستفادة من البيانات من المهام الأخرى ذات الصلة، بما في ذلك تقييم
نحن نصف أنظمتنا من SubTask1 و SubTask3 لمهمة Semeval-2021 6 على اكتشاف تقنيات الإقناع في النصوص والصور.الغرض من SubTask1 هو تحديد تقنيات الدعاية المعطاة المحتوى النصي، وهدف الفرع SubTask3 هو اكتشافها بالنظر إلى كل من المحتوى النصي والبصرية.بالنسبة إل
الهدف من SEMEVAL-2021 المهمة 6 هو تحديد التقنيات المستخدمة مع فترة (ق) من النص المشمول من كل تقنية.تصف هذه الورقة النظام والنموذج الذي طورنا لهذه المهمة.نقترح أولا نظام خط أنابيب لتحديد المواقف، ثم صنف هذه التقنية في تسلسل الإدخال.لكنه يعاني بشدة من
تقدم هذه الورقة الحل المقترح من قبل فريق 1213LI ل Subtask 3 في مهمة Semeval-2021: تحديد تقنيات الإقناع المتعددة المستخدمة في المحتوى متعدد الوسائط للميمي.استكشفنا مناهج مختلفة في استخراج ميزة الكشف عن ملصقات الإقناع.توظف نموذجنا النهائي النماذج المدر
تصف هذه الورقة النظام المستخدم من قبل فريق Aimh للتعامل مع المهمة السامية 6. نقترح نهج يعتمد على بنية بناء على نموذج المحول لمعالجة المحتوى متعدد الوسائط (النص والصور) في الميمات.بنية لدينا، تسمى DVTT (محول نصي مرئي مزدوج)، تقترب من المهام الفرعية 1