التواصل البشري متعدد الوسائط في الطبيعة؛ من خلال طرائق متعددة مثل تعبيرات اللغة والصوت والوجه، يتم التعبير عن الآراء والعواطف. تظهر البيانات في هذا المجال التفاعلات المعقدة متعددة العلاقات والزمنية. التعلم من هذه البيانات هو مشكلة بحثية تحديا أساسيا. في هذه الورقة، نقترح الرسم البياني الاهتمام الأزمني (MTAG). MTAG هو نموذج عصبي مقاوم للرسمية يوفر إطارا مناسبا لتحليل البيانات المتسلسلة متعددة الوسائط. نقدم أولا إجراءات لتحويل بيانات التسلسل غير المعقدة متعددة الوسائط إلى رسم بياني مع العقد والحواف غير المتجانسة التي تلتقط التفاعلات الغنية عبر الطرائق وعبر الوقت. ثم، تم تصميم عملية رسم بياني رواية، تسمى MTAG FOUSION، إلى جانب تقنية تشذيب ديناميكية وقراءة، لمعالجة الرسوم البيانية الوظيفة الزمنية هذه بكفاءة والتقاط التفاعلات المختلفة. من خلال تعلم التركيز فقط على التفاعلات المهمة داخل الرسم البياني، تحقق MTAG أداء حديثة على تحليل المعنويات متعددة الوسائط ومعايير التعرف على العاطفة، مع الاستفادة من المعلمات النموذجية أقل بكثير.
Human communication is multimodal in nature; it is through multiple modalities such as language, voice, and facial expressions, that opinions and emotions are expressed. Data in this domain exhibits complex multi-relational and temporal interactions. Learning from this data is a fundamentally challenging research problem. In this paper, we propose Modal-Temporal Attention Graph (MTAG). MTAG is an interpretable graph-based neural model that provides a suitable framework for analyzing multimodal sequential data. We first introduce a procedure to convert unaligned multimodal sequence data into a graph with heterogeneous nodes and edges that captures the rich interactions across modalities and through time. Then, a novel graph fusion operation, called MTAG fusion, along with a dynamic pruning and read-out technique, is designed to efficiently process this modal-temporal graph and capture various interactions. By learning to focus only on the important interactions within the graph, MTAG achieves state-of-the-art performance on multimodal sentiment analysis and emotion recognition benchmarks, while utilizing significantly fewer model parameters.
References used
https://aclanthology.org/
This paper presents the first study on using large-scale pre-trained language models for automated generation of an event-level temporal graph for a document. Despite the huge success of neural pre-training methods in NLP tasks, its potential for tem
Understanding narrative text requires capturing characters' motivations, goals, and mental states. This paper proposes an Entity-based Narrative Graph (ENG) to model the internal- states of characters in a story. We explicitly model entities, their i
Static knowledge graph (SKG) embedding (SKGE) has been studied intensively in the past years. Recently, temporal knowledge graph (TKG) embedding (TKGE) has emerged. In this paper, we propose a Recursive Temporal Fact Embedding (RTFE) framework to tra
We propose the Recursive Non-autoregressive Graph-to-Graph Transformer architecture (RNGTr) for the iterative refinement of arbitrary graphs through the recursive application of a non-autoregressive Graph-to-Graph Transformer and apply it to syntacti
The next generation of conversational AI systems need to: (1) process language incrementally, token-by-token to be more responsive and enable handling of conversational phenomena such as pauses, restarts and self-corrections; (2) reason incrementally