ترغب بنشر مسار تعليمي؟ اضغط هنا

تصف هذه الورقة نظامنا المشارك في المهمة 6 من Semeval-2021: تركز المهمة على تصنيف تقنية الدعاية متعددة الوسائط وتهدف إلى تصنيف الصورة والنص في 22 فئة. في هذه الورقة، نقترح استخدام الهندسة المعمارية القائمة على المحولات لفوسات القرائن من كل من الصورة و النص. نستكشف فرعين من التقنيات بما في ذلك ضبط النص المحول مسبقا مع ميزات مرئية ممتدة، وضبط المحولات مسبقا مسبقا. للحصول على الميزات المرئية، اختبرنا كل من ميزات الشبكة بناء على ميزات Resnet والمنطقة البارزة من كاشف كائن مسبقا. من بين المحولات متعددة الوسائط المسبدة مسبقا، نختار Ernie-Vil، وهو محولات من المحولات التي يحضرها اثنين من البخار المحددة على بيانات محاذاة على نطاق واسع على نطاق واسع. تنتج Ernie-Vil Fore-Tuing من أجل مهمتنا أداء أفضل بسبب التمثيل المتعدد الوسائط العام للنص والصورة التي تعلمتها إرني فيل. علاوة على ذلك، نظرا لأن توزيع ملصقات التصنيف غير متوازنة للغاية، فإننا نقوم أيضا بمحاولة أخرى على وظيفة الخسارة ويبلغ نتيجة التجربة أن فقدان البؤري سيؤدي أفضل من فقدان انتروبيا. أخيرا كنا فزنا أولا في Subtask C في المنافسة النهائية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا