التضليل عبر الإنترنت هو قضية اجتماعية سائدة، مع anversaries تعتمد على الأدوات التي تتراوح من مزيفة رخيصة إلى مزيفة عميقة متطورة. نحن دوافع من سيناريو التهديد حيث يتم استخدام صورة خارج السياق لدعم سرد معين. في حين أن بعض مجموعات البيانات السابقة للكشف عن تناسق نص الصورة تولد عينات من خلال معالجة النص، نقترح مجموعة بيانات حيث تكون كل من الصور والنص غير المدمجة ولكن غير متطابقة. نقدم عدة استراتيجيات لاستعادة الصور المقنعة تلقائيا للحصول على تعليق معين، والتقاط الحالات مع كيانات غير متناسقة أو السياق الدلالي. لدينا نطاق واسع النطاق تلقائيا لوحة بيانات الأخبار: (1) يوضح أن إعادة شحن الصورة التي يحركها الجهاز هي الآن تهديد واقعي، و (2) توفر عينات تمثل حالات تحديا غير متطابقة بين النص والصورة في الأخبار التي تتمكن من تضليل البشر وبعد نحن نقسم عدة نماذج متعددة الوسائط في مجموعة بياناتنا وتحليل أدائها عبر مجالات محاكمة مختلفة والشبكات المرئية.
Online misinformation is a prevalent societal issue, with adversaries relying on tools ranging from cheap fakes to sophisticated deep fakes. We are motivated by the threat scenario where an image is used out of context to support a certain narrative. While some prior datasets for detecting image-text inconsistency generate samples via text manipulation, we propose a dataset where both image and text are unmanipulated but mismatched. We introduce several strategies for automatically retrieving convincing images for a given caption, capturing cases with inconsistent entities or semantic context. Our large-scale automatically generated the NewsCLIPpings Dataset: (1) demonstrates that machine-driven image repurposing is now a realistic threat, and (2) provides samples that represent challenging instances of mismatch between text and image in news that are able to mislead humans. We benchmark several state-of-the-art multimodal models on our dataset and analyze their performance across different pretraining domains and visual backbones.
المراجع المستخدمة
https://aclanthology.org/
حققت نماذج لغة الرؤية المحددة الأخيرة أداء مثير للإعجاب على مهام الاسترجاع عبر مشروط باللغة الإنجليزية. ومع ذلك، تعتمد نجاحهم بشكل كبير على توافر العديد من مجموعات بيانات التعليق المشروح على الصورة لإحاطاء، حيث لا تكون النصوص بالضرورة باللغة الإنجليز
الترجمة الآلية العصبية متعددة الوسائط (MNMT) هي مهمة مثيرة للاهتمام في معالجة اللغة الطبيعية (NLP) حيث نستخدم طرائق مرئية إلى جانب جملة مصدر لمساعدة المصدر لعملية الترجمة المستهدفة.في الآونة الأخيرة، كان هناك الكثير من الأعمال في أطر MNMT لتعزيز أداء
في هذه الورقة نقدم التنفيذ النموذجي لخط أنابيب يسمح للجيل التلقائي باللغة الرمزية لغة الإشارة الألمانية من مادة فيديو ثنائية الأبعاد. يرافق العرض التقديمي شفرة المصدر. نقوم بتسجيل حركات تشكل الإنسان أثناء التوقيع مع نماذج رؤية الكمبيوتر. يتم استيراد
استولت رواية القصص الآلية منذ فترة طويلة اهتمام الباحثين في كل من الروايات في الحياة اليومية.تظهر أفضل القصص المصنوعة من قبل الإنسان مؤامرة متماسكة، وأحرف قوية، والالتزام بالأنواع، والأسماك التي لا تزال الدول الحالية من الفن لا تزال تكافح من أجل إنتا
تقدم هذه الورقة نظام يستخدم لمهمة Semeval-2021 5: الكشف عن المسافة السامة.نظامنا هو مجموعة من النماذج القائمة على بيرت لتصنيف الكلمة الثنائية، مدربة على مجموعة بيانات تمتد بواسطة التعليقات السامة المعدلة وتولدها نماذج لغتين.بالنسبة لتصنيف الكلمة السا