ترغب بنشر مسار تعليمي؟ اضغط هنا

أظهر المحول متعدد الوسائط نموذجا تنافسي للمهام متعددة الوسائط التي تنطوي على إشارات نصية ومرئية وصوتية.ومع ذلك، نظرا لأن المزيد من الطرائق متورطة، يبدأ الاندماج المتأخر عن طريق التسلسل في الحصول على تأثير سلبي على أداء النموذج.علاوة على ذلك، تصبح تنب ؤات نموذج الترجمة الشفوية صعبة، لأن المرء يجب أن ينظر إلى مصفوفات تنشيط الاهتمام المختلفة.من أجل التغلب على أوجه القصور هذه، نقترح أداء الانصهار المتأخر عن طريق إضافة وحدة نمطية GMU، والتي تتيح بشكل فعال النموذج من طرائق الوزن على مستوى مثيل، مما يحسن أدائه مع توفير آلية تفسيرية أفضل.في التجارب، نقوم بمقارنة نموذجنا المقترح (Mult-Gmu) مقابل التنفيذ الأصلي (Mult-Concat) ونموذج SOTA تم اختباره في مجموعة بيانات تصنيف أنواع الأفلام.نهجنا، Mult-Gmu، تتفوق على حد سواء، Mult-Concat ونموذج Sota السابق.
في مهام توليد اللغة الطبيعية، يتم استخدام نموذج لغة عصبي لتوليد سلسلة من الكلمات التي تشكل جملة.يمكن اعتبار مصفوفة الوزن الأعلى من طراز اللغة، المعروف باسم طبقة التصنيف، كمجموعة من المتجهات، كل منها يمثل كلمة مستهدفة من قاموس الهدف.يتم تعلم ومكافحة ا لكلمات المستهدفة، إلى جانب بقية المعلمات النموذجية، أثناء التدريب.في هذه الورقة، نقوم بتحليل الممتلكات المشفرة في المتجهات المستهدفة والسؤال على ضرورة تعلم هذه المتجهات.نقترح تعيين ناقلات المستهدفة بشكل عشوائي وتحديدها على أنها ثابتة حتى يتم إجراء تحديثات للأوزان أثناء التدريب.نظهر أنه من خلال استبعاد ناقلات التحسين، ينخفض عدد المعلمات بشكل كبير مع تأثير هامشي على الأداء.نوضح فعالية طريقتنا في التسمية التوضيحية للصورة والترجمة الآلية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا