تحليل المعنويات متعددة الوسائط (MSA) يرسم اهتماما متزايدا بتوافر بيانات متعددة الوسائط. يعوق دفعة في أداء نماذج MSA بشكل رئيسي بمشاكل. من ناحية، تعمل MSA الأخيرة على التركيز في الغالب على تعلم الديناميات عبر الوسائط، ولكن الإهمال لاستكشاف الحل الأمثل للشبكات غير المستقرة، والتي تحدد الحد الأدنى لنماذج MSA. من ناحية أخرى، يتداخل المعلومات الصاخبة المخفية في كل طريقة في تعلم ديناميات العرض الصحيحة الصحيحة. لمعالجة المشكلات المذكورة أعلاه، نقترح نموذج تعديل إطار MSA MSA لتحليل المشاعر المتعدد الوسائط (M3SA) لتحديد مساهمة الطرائق وتقليل تأثير المعلومات الصاخبة، وذلك لتحسين تعلم ديناميات غير مهادة وعبرية. على وجه التحديد، تم تصميم خسارة التشكيل لتعديل مساهمة الخسارة على أساس ثقة الطرائق الفردية في كل كلام، وذلك لاستكشاف حل تحديث الأمثل لكل شبكة غير مهام. بالإضافة إلى ذلك، عكس ذلك، فإن معظم الأعمال الموجودة التي تفشل في تصفية المعلومات الصاخبة بشكل صريح، ونحن نضع وحدة تصفية طريقة للتعريف لتحديد وتصفية ضوضاء الوسوية لتعلم التضمين الصحيحة والعصرية. تجارب واسعة النطاق على مجموعات البيانات العامة تثبت أن نهجنا يحقق الأداء الحديثة.
Multimodal sentiment analysis (MSA) draws increasing attention with the availability of multimodal data. The boost in performance of MSA models is mainly hindered by two problems. On the one hand, recent MSA works mostly focus on learning cross-modal dynamics, but neglect to explore an optimal solution for unimodal networks, which determines the lower limit of MSA models. On the other hand, noisy information hidden in each modality interferes the learning of correct cross-modal dynamics. To address the above-mentioned problems, we propose a novel MSA framework Modulation Model for Multimodal Sentiment Analysis (M3SA) to identify the contribution of modalities and reduce the impact of noisy information, so as to better learn unimodal and cross-modal dynamics. Specifically, modulation loss is designed to modulate the loss contribution based on the confidence of individual modalities in each utterance, so as to explore an optimal update solution for each unimodal network. Besides, contrary to most existing works which fail to explicitly filter out noisy information, we devise a modality filter module to identify and filter out modality noise for the learning of correct cross-modal embedding. Extensive experiments on publicly datasets demonstrate that our approach achieves state-of-the-art performance.
References used
https://aclanthology.org/
Aspect terms extraction (ATE) and aspect sentiment classification (ASC) are two fundamental and fine-grained sub-tasks in aspect-level sentiment analysis (ALSA). In the textual analysis, joint extracting both aspect terms and sentiment polarities has
Recent pretrained vision-language models have achieved impressive performance on cross-modal retrieval tasks in English. Their success, however, heavily depends on the availability of many annotated image-caption datasets for pretraining, where the t
Abstract Large-scale pretraining and task-specific fine- tuning is now the standard methodology for many tasks in computer vision and natural language processing. Recently, a multitude of methods have been proposed for pretraining vision and language
Aspect-based sentiment analysis (ABSA) mainly involves three subtasks: aspect term extraction, opinion term extraction, and aspect-level sentiment classification, which are typically handled in a separate or joint manner. However, previous approaches
With the popularity of the current Internet age, online social platforms have provided a bridge for communication between private companies, public organizations, and the public. The purpose of this research is to understand the user's experience of