ترغب بنشر مسار تعليمي؟ اضغط هنا

Aimh في مهمة Semeval-2021 6: تصنيف متعدد الوسائط باستخدام مجموعة من نماذج المحولات

AIMH at SemEval-2021 Task 6: Multimodal Classification Using an Ensemble of Transformer Models

330   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تصف هذه الورقة النظام المستخدم من قبل فريق Aimh للتعامل مع المهمة السامية 6. نقترح نهج يعتمد على بنية بناء على نموذج المحول لمعالجة المحتوى متعدد الوسائط (النص والصور) في الميمات.بنية لدينا، تسمى DVTT (محول نصي مرئي مزدوج)، تقترب من المهام الفرعية 1 و 3 من المهمة 6 كمشاكل تصنيف متعددة التسميات، حيث تتم معالجة نص و / أو صور ميمي، واحتمالات وجود كل إقناع محتمليتم إرجاع التقنية نتيجة لذلك.يستخدم DVTT شبكتان كاملا من المحولات التي تعمل على النص والصور مشروطة بشكل متبادل.يعمل أحد الطرائقين كأداة رئيسية والثانية التدخل في إثراء أول واحد، وبالتالي الحصول على طريقتين مميزين للعمل.يتم دمج مخرجات المحولاتين عن طريق حساب احتمالات الاستفادة من كل ملصق ممكن، ويتم تدريب الشبكة الشاملة على نهاية إلى نهاية مع فقدان انتروبيا ثنائي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصف هذه الورقة نظامنا المشارك في المهمة 6 من Semeval-2021: تركز المهمة على تصنيف تقنية الدعاية متعددة الوسائط وتهدف إلى تصنيف الصورة والنص في 22 فئة. في هذه الورقة، نقترح استخدام الهندسة المعمارية القائمة على المحولات لفوسات القرائن من كل من الصورة و النص. نستكشف فرعين من التقنيات بما في ذلك ضبط النص المحول مسبقا مع ميزات مرئية ممتدة، وضبط المحولات مسبقا مسبقا. للحصول على الميزات المرئية، اختبرنا كل من ميزات الشبكة بناء على ميزات Resnet والمنطقة البارزة من كاشف كائن مسبقا. من بين المحولات متعددة الوسائط المسبدة مسبقا، نختار Ernie-Vil، وهو محولات من المحولات التي يحضرها اثنين من البخار المحددة على بيانات محاذاة على نطاق واسع على نطاق واسع. تنتج Ernie-Vil Fore-Tuing من أجل مهمتنا أداء أفضل بسبب التمثيل المتعدد الوسائط العام للنص والصورة التي تعلمتها إرني فيل. علاوة على ذلك، نظرا لأن توزيع ملصقات التصنيف غير متوازنة للغاية، فإننا نقوم أيضا بمحاولة أخرى على وظيفة الخسارة ويبلغ نتيجة التجربة أن فقدان البؤري سيؤدي أفضل من فقدان انتروبيا. أخيرا كنا فزنا أولا في Subtask C في المنافسة النهائية.
الميمات هي واحدة من الأنواع الأكثر شعبية من المحتوى المستخدمة لنشر المعلومات عبر الإنترنت.يمكنهم التأثير على عدد كبير من الناس من خلال التقنيات الخطابية والنفسية.تتمثل المهمة والكشف عن تقنيات الإقناع في النصوص والصور، والكشف عن هذه التقنيات المقنعة ف ي الميمات.يتكون من ثلاثة أجهزة فرعية: (أ) تصنيف متعدد التسميات باستخدام المحتوى النصي، (ب) تصنيف التسميات المتعددة والتحديد SPAN باستخدام المحتوى النصي، و (ج) تصنيف متعدد التسميات باستخدام المحتوى المرئي والنصوص.في هذه الورقة، نقترح نهجا للتعلم نقل النماذج القائمة على Brote-Tune-Tune في طرائق مختلفة.نحن نستكشف أيضا فعالية مجموعات النماذج المدربة في طرائق مختلفة.نحقق درجة F1 57.0 و 48.2 و 52.1 في المهام الفرعية المقابلة.
نحن نصف أنظمتنا من SubTask1 و SubTask3 لمهمة Semeval-2021 6 على اكتشاف تقنيات الإقناع في النصوص والصور.الغرض من SubTask1 هو تحديد تقنيات الدعاية المعطاة المحتوى النصي، وهدف الفرع SubTask3 هو اكتشافها بالنظر إلى كل من المحتوى النصي والبصرية.بالنسبة إل ى SubTask1، نقوم بالتحقيق في التعلم التحويل بناء على نماذج اللغة المدربة مسبقا (PLMS) مثل بيرت، روبرتا لحل مشاكل تدفق البيانات.بالنسبة إلى SubTask3، نستخرج التمثيلات البصرية غير المتجانسة (I.E.، وميزات الوجه، وميزات OCR، والتمثيلات متعددة الوسائط) واستكشف العديد من استراتيجيات الانصهار متعددة الوسائط المتعددة للجمع بين التمثيلات النصية والمرئية.يوضح التقييم الرسمي طراز الفرع الخاص بنا يحتل المرتبة الأولى ل SubTask1 و 2 ل SubTask3.
الكشف والتصنيف في وقت واحد هو مهمة غير موجهة حاليا في أطر NLP القياسية.تصف هذه الورقة السبب وكيف تم استخدام نموذج الترفيح في الجمع بين الكشف عن الفحص والتصنيف لمعالجة SubTask 2 من مهمة Semeval-2021 6.
تنقل تنبؤ التعقيد المعجمي (LCP) باحسن مستوى تعقيد رمز رمزي أو مجموعة من الرموز في جملة.يلعب دورا حيويا في تحسين مهام NLP المختلفة بما في ذلك التبسيط المعجمي والترجمات وتوليد النص.ومع ذلك، فإن المعنى المتعدد لكلمة في ظروف متعددة، وهيكل مجمع نحوي، والا عتماد المتبادل للكلمات في جملة تجعل من الصعب تقدير التعقيد المعجمي.لمعالجة هذه التحديات، قدمت مهمة Semeval-2021 1 مهمة مشتركة تركز على LCP وتعرض هذه الورقة مشاركتنا في هذه المهمة.اقترحنا نهجا قائم على المحولات مع انحدار زوج الجملة.نحن عملنا نماذج محول صعبة ضبطها.بما في ذلك بيرت وروبرتا لتدريب نموذجنا وصماماتها المتوقعة لتقدير التعقيد.توضح النتائج التجريبية أن طريقةنا المقترحة تحققت أداء تنافسي مقارنة بنظم المشاركين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا