التضليل عبر الإنترنت هو قضية اجتماعية سائدة، مع anversaries تعتمد على الأدوات التي تتراوح من مزيفة رخيصة إلى مزيفة عميقة متطورة. نحن دوافع من سيناريو التهديد حيث يتم استخدام صورة خارج السياق لدعم سرد معين. في حين أن بعض مجموعات البيانات السابقة للكشف عن تناسق نص الصورة تولد عينات من خلال معالجة النص، نقترح مجموعة بيانات حيث تكون كل من الصور والنص غير المدمجة ولكن غير متطابقة. نقدم عدة استراتيجيات لاستعادة الصور المقنعة تلقائيا للحصول على تعليق معين، والتقاط الحالات مع كيانات غير متناسقة أو السياق الدلالي. لدينا نطاق واسع النطاق تلقائيا لوحة بيانات الأخبار: (1) يوضح أن إعادة شحن الصورة التي يحركها الجهاز هي الآن تهديد واقعي، و (2) توفر عينات تمثل حالات تحديا غير متطابقة بين النص والصورة في الأخبار التي تتمكن من تضليل البشر وبعد نحن نقسم عدة نماذج متعددة الوسائط في مجموعة بياناتنا وتحليل أدائها عبر مجالات محاكمة مختلفة والشبكات المرئية.
Online misinformation is a prevalent societal issue, with adversaries relying on tools ranging from cheap fakes to sophisticated deep fakes. We are motivated by the threat scenario where an image is used out of context to support a certain narrative. While some prior datasets for detecting image-text inconsistency generate samples via text manipulation, we propose a dataset where both image and text are unmanipulated but mismatched. We introduce several strategies for automatically retrieving convincing images for a given caption, capturing cases with inconsistent entities or semantic context. Our large-scale automatically generated the NewsCLIPpings Dataset: (1) demonstrates that machine-driven image repurposing is now a realistic threat, and (2) provides samples that represent challenging instances of mismatch between text and image in news that are able to mislead humans. We benchmark several state-of-the-art multimodal models on our dataset and analyze their performance across different pretraining domains and visual backbones.
References used
https://aclanthology.org/
Recent pretrained vision-language models have achieved impressive performance on cross-modal retrieval tasks in English. Their success, however, heavily depends on the availability of many annotated image-caption datasets for pretraining, where the t
Multimodal Neural Machine Translation (MNMT) is an interesting task in natural language processing (NLP) where we use visual modalities along with a source sentence to aid the source to target translation process. Recently, there has been a lot of wo
In this paper we present a prototypical implementation of a pipeline that allows the automatic generation of a German Sign Language avatar from 2D video material. The presentation is accompanied by the source code. We record human pose movements duri
Automated storytelling has long captured the attention of researchers for the ubiquity of narratives in everyday life. The best human-crafted stories exhibit coherent plot, strong characters, and adherence to genres, attributes that current states-of
This paper presents a system used for SemEval-2021 Task 5: Toxic Spans Detection. Our system is an ensemble of BERT-based models for binary word classification, trained on a dataset extended by toxic comments modified and generated by two language mo