يعمل المصنف الموجود في مهام الحوسبة العاطفية متعددة الوسائط، مثل التعرف على العاطفة والتعرف على الشخصية، عموما خط أنابيب ذات مرحلتين من خلال أول استخراج تمثيلات ميزة لكل طريقة واحدة مع الخوارزميات المصنوعة يدويا، ثم أداء التعلم المنتهي مع الميزات المستخرجة. ومع ذلك، يتم إصلاح الميزات المستخرجة ولا يمكن ضبطها بشكل جيد على المهام المستهدفة المختلفة، والعثور على ميزة خوارزميات الاستخراج يدويا لا تعميم أو مقياس جيدا لمهام مختلفة، والتي يمكن أن تؤدي إلى الأداء دون الأمثل. في هذه الورقة، نقوم بتطوير نموذج طرف بالكامل يربط المرحلتين وتحسينها بشكل مشترك. بالإضافة إلى ذلك، نقوم بإعادة هيكلة مجموعات البيانات الحالية لتمكين التدريب الكامل للنهاية. علاوة على ذلك، لتقليل النفقات الحاسوبية النماذج المحسوبة بالنماذج الطرفية إلى النهاية، نقدم آلية اهتمامية متناثرة عبر مشروط لاستخراج الميزة. تظهر النتائج التجريبية أن طرازنا الناتج الكامل ينفج بشكل كبير يتفوق بشكل كبير النماذج الحالية للحالة القائمة على خط أنابيب الطورين. علاوة على ذلك، من خلال إضافة اهتمام متناثر عبر الوسائط، يمكن لنموذجنا الحفاظ على الأداء مع حوالي نصف حساب أقل في جزء استخراج الميزة من النموذج.
Existing works in multimodal affective computing tasks, such as emotion recognition and personality recognition, generally adopt a two-phase pipeline by first extracting feature representations for each single modality with hand crafted algorithms, and then performing end-to-end learning with extracted features. However, the extracted features are fixed and cannot be further fine-tuned on different target tasks, and manually finding feature extracting algorithms does not generalize or scale well to different tasks, which can lead to sub-optimal performance. In this paper, we develop a fully end-to-end model that connects the two phases and optimizes them jointly. In addition, we restructure the current datasets to enable the fully end-to-end training. Furthermore, to reduce the computational overhead brought by the end-to-end model, we introduce a sparse cross-modal attention mechanism for the feature extraction. Experimental results show that our fully end-to-end model significantly surpasses the current state-of-the-art models based on the two-phase pipeline. Moreover, by adding the sparse cross-modal attention, our model can maintain the performance with around half less computation in the feature extraction part of the model.
المراجع المستخدمة
https://aclanthology.org/
بسبب شعبية خدمات مساعد الحوار الذكي، أصبح التعرف على عاطفي الكلام أكثر وأكثر أهمية.في التواصل بين البشر والآلات، يمكن للتعرف على العاطفة وتحليل العاطفة تعزيز التفاعل بين الآلات والبشر.تستخدم هذه الدراسة نموذج CNN + LSTM لتنفيذ معالجة العاطفة الكلام (
تلقى الاعتراف بالمحادثة في المحادثة اهتماما كبيرا مؤخرا بسبب تطبيقاتها الصناعية العملية.تميل الأساليب الحالية إلى التغاضي عن التفاعل المتبادل الفوري بين مكبرات الصوت المختلفة في مستوى الكلام المتكلم، أو قم بتطبيق RNN المتكلم المرغوب عن الكلام من مختل
أصبح التعرف على العاطفة في محادثة متعددة الأحزاب (ermc) شعبية بشكل متزايد كقاعدة بحثية ناشئة في معالجة اللغة الطبيعية.يركز البحث المسبق على استكشاف معلومات متتابعة ولكن يتجاهل هياكل المحادثات.في هذه الورقة، يمكننا التحقيق في أهمية هياكل الخطاب في الت
يعد تحليل الإطار الدلالي مهمة تحليل دلالية تعتمد على Framenet التي تلقت اهتماما كبيرا مؤخرا.تتضمن المهمة عادة ثلاث مجموعات فرعية بالتتابع: (1) التعرف المستهدف، (2) تصنيف الإطار و (3) وصف الدور الدليمي.ترتبط المهارات الفرعية الثلاثة ارتباطا وثيقا أثنا
يمكن للقدرة على اكتشاف الإجهاد البشري تلقائيا أن تفيد العوامل الذكية الاصطناعية المشاركة في الحوسبة العاطفية والتفاعل البشري والحاسوب.الإجهاد والعاطفة كلا من الدول العاطفية البشرية، وقد أثبت الإجهاد أن يكون لها آثار مهمة على تنظيم العاطفة والتعبير عن