التواصل البشري متعدد الوسائط في الطبيعة؛ من خلال طرائق متعددة مثل تعبيرات اللغة والصوت والوجه، يتم التعبير عن الآراء والعواطف. تظهر البيانات في هذا المجال التفاعلات المعقدة متعددة العلاقات والزمنية. التعلم من هذه البيانات هو مشكلة بحثية تحديا أساسيا. في هذه الورقة، نقترح الرسم البياني الاهتمام الأزمني (MTAG). MTAG هو نموذج عصبي مقاوم للرسمية يوفر إطارا مناسبا لتحليل البيانات المتسلسلة متعددة الوسائط. نقدم أولا إجراءات لتحويل بيانات التسلسل غير المعقدة متعددة الوسائط إلى رسم بياني مع العقد والحواف غير المتجانسة التي تلتقط التفاعلات الغنية عبر الطرائق وعبر الوقت. ثم، تم تصميم عملية رسم بياني رواية، تسمى MTAG FOUSION، إلى جانب تقنية تشذيب ديناميكية وقراءة، لمعالجة الرسوم البيانية الوظيفة الزمنية هذه بكفاءة والتقاط التفاعلات المختلفة. من خلال تعلم التركيز فقط على التفاعلات المهمة داخل الرسم البياني، تحقق MTAG أداء حديثة على تحليل المعنويات متعددة الوسائط ومعايير التعرف على العاطفة، مع الاستفادة من المعلمات النموذجية أقل بكثير.
Human communication is multimodal in nature; it is through multiple modalities such as language, voice, and facial expressions, that opinions and emotions are expressed. Data in this domain exhibits complex multi-relational and temporal interactions. Learning from this data is a fundamentally challenging research problem. In this paper, we propose Modal-Temporal Attention Graph (MTAG). MTAG is an interpretable graph-based neural model that provides a suitable framework for analyzing multimodal sequential data. We first introduce a procedure to convert unaligned multimodal sequence data into a graph with heterogeneous nodes and edges that captures the rich interactions across modalities and through time. Then, a novel graph fusion operation, called MTAG fusion, along with a dynamic pruning and read-out technique, is designed to efficiently process this modal-temporal graph and capture various interactions. By learning to focus only on the important interactions within the graph, MTAG achieves state-of-the-art performance on multimodal sentiment analysis and emotion recognition benchmarks, while utilizing significantly fewer model parameters.
المراجع المستخدمة
https://aclanthology.org/
تقدم هذه الورقة أول دراسة حول استخدام نماذج اللغة المدربة مسبقا على نطاق واسع للجيل الآلي من الرسم البياني الصخم على مستوى الحدث للحصول على مستند. على الرغم من النجاح الهائل لأساليب ما قبل التدريب العصبي في مهام NLP، لم يتم استكشاف إمكاناتها للمنطق ا
يتطلب فهم النص السردي التقاط الدوافع والأهداف والدول الذهنية.تقترح هذه الورقة رسم بياني سرد قائم على الكيان (ENG) لنموذج الدول الداخلية من الشخصيات في القصة.نحن النموذج الصريح كيانات، وتفاعلاتهم والسياق الذي تظهر فيه، وتعلموا تمثيلات غنية لهم.نقوم بت
تمت دراسة Graph Basic Knowledge (SKG) (SKGE) بشكل مكثف في السنوات الماضية.في الآونة الأخيرة، ظهرت شركة الرسم البياني للمعرفة (TKG) (TKGE).في هذه الورقة، نقترح إطار عمل تضمين الحقائق الزمنية العودية (RTFE) لإجراء عمليات زراعة النماذج إلى TKGS وتعزيز أ
نقترح هندسة محول الرسم البياني المتكرر للرسوم البيانية التلقائي (Rngtr) من أجل تحسين الرسوم البيانية التعسفية من خلال التطبيق العسكري لمحول الرسم البياني غير التلقائي إلى الرسم البياني وتطبيقه على تحليل التبعية النحوية.نوضح قوة وفعالية Rngtr على العد
تحتاج الجيل القادم من أنظمة المحادثة AI إلى: (1) لغة العملية تدريجيا، يجب أن تكون الرمز المميز أكثر استجابة وتمكين التعامل مع ظواض المحادثة مثل توقف مؤقت وإعادة التشغيل والتصحيحات الذاتية؛ (2) السبب السماح بشكل تدريجي بالمعنى الذي سيتم إنشاؤه بعد ما