ترغب بنشر مسار تعليمي؟ اضغط هنا

1213LI في Semeval-2021 المهمة 6: اكتشاف الدعاية مع اهتمام متعدد الوسائط والنماذج المدربة مسبقا

1213Li at SemEval-2021 Task 6: Detection of Propaganda with Multi-modal Attention and Pre-trained Models

552   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة الحل المقترح من قبل فريق 1213LI ل Subtask 3 في مهمة Semeval-2021: تحديد تقنيات الإقناع المتعددة المستخدمة في المحتوى متعدد الوسائط للميمي.استكشفنا مناهج مختلفة في استخراج ميزة الكشف عن ملصقات الإقناع.توظف نموذجنا النهائي النماذج المدربة مسبقا بما في ذلك روبرتا و RESNET-50 كمستخلص ميزة للنصوص والصور، على التوالي، ويعتمد طبقة تضمين الملصقات مع آلية اهتمام متعدد الوسائط لقياس تشابه الملصقات مع المعلومات متعددة الوسائطمميزات الصمامات للتوقعات التسمية.تتفوقت طريقة لدينا المقترحة على الطريقة الأساسية المقدمة وتحقق 3 من 16 مشاركا مع 0.54860 / 0.22830 لعشرات مايكرو / ماكرو F1.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

من بين المهام التي تحفزها انتشار المعلومات الخاطئة، فإن اكتشاف الدعاية تحديا بشكل خاص بسبب عجز التعليقات التوضيحية الدقيقة الدقيقة اللازمة لتدريب نماذج التعلم الآلي.هنا نظهر كيف يمكن الاستفادة من البيانات من المهام الأخرى ذات الصلة، بما في ذلك تقييم المصداقية، في إطار التعلم متعدد المهام (MTL) لتسريع عملية التدريب.وتحقيقا لهذه الغاية، نقوم بتصميم نموذج يستند إلى بيرت مع طبقات إخراج متعددة، وتدريبه في العديد من سيناريوهات MTL وأداء التقييم ضد معيار الذهب السائم.
نحن نصف أنظمتنا من SubTask1 و SubTask3 لمهمة Semeval-2021 6 على اكتشاف تقنيات الإقناع في النصوص والصور.الغرض من SubTask1 هو تحديد تقنيات الدعاية المعطاة المحتوى النصي، وهدف الفرع SubTask3 هو اكتشافها بالنظر إلى كل من المحتوى النصي والبصرية.بالنسبة إل ى SubTask1، نقوم بالتحقيق في التعلم التحويل بناء على نماذج اللغة المدربة مسبقا (PLMS) مثل بيرت، روبرتا لحل مشاكل تدفق البيانات.بالنسبة إلى SubTask3، نستخرج التمثيلات البصرية غير المتجانسة (I.E.، وميزات الوجه، وميزات OCR، والتمثيلات متعددة الوسائط) واستكشف العديد من استراتيجيات الانصهار متعددة الوسائط المتعددة للجمع بين التمثيلات النصية والمرئية.يوضح التقييم الرسمي طراز الفرع الخاص بنا يحتل المرتبة الأولى ل SubTask1 و 2 ل SubTask3.
تصف هذه الورقة نظامنا المشارك في المهمة 6 من Semeval-2021: تركز المهمة على تصنيف تقنية الدعاية متعددة الوسائط وتهدف إلى تصنيف الصورة والنص في 22 فئة. في هذه الورقة، نقترح استخدام الهندسة المعمارية القائمة على المحولات لفوسات القرائن من كل من الصورة و النص. نستكشف فرعين من التقنيات بما في ذلك ضبط النص المحول مسبقا مع ميزات مرئية ممتدة، وضبط المحولات مسبقا مسبقا. للحصول على الميزات المرئية، اختبرنا كل من ميزات الشبكة بناء على ميزات Resnet والمنطقة البارزة من كاشف كائن مسبقا. من بين المحولات متعددة الوسائط المسبدة مسبقا، نختار Ernie-Vil، وهو محولات من المحولات التي يحضرها اثنين من البخار المحددة على بيانات محاذاة على نطاق واسع على نطاق واسع. تنتج Ernie-Vil Fore-Tuing من أجل مهمتنا أداء أفضل بسبب التمثيل المتعدد الوسائط العام للنص والصورة التي تعلمتها إرني فيل. علاوة على ذلك، نظرا لأن توزيع ملصقات التصنيف غير متوازنة للغاية، فإننا نقوم أيضا بمحاولة أخرى على وظيفة الخسارة ويبلغ نتيجة التجربة أن فقدان البؤري سيؤدي أفضل من فقدان انتروبيا. أخيرا كنا فزنا أولا في Subtask C في المنافسة النهائية.
الهدف من SEMEVAL-2021 المهمة 6 هو تحديد التقنيات المستخدمة مع فترة (ق) من النص المشمول من كل تقنية.تصف هذه الورقة النظام والنموذج الذي طورنا لهذه المهمة.نقترح أولا نظام خط أنابيب لتحديد المواقف، ثم صنف هذه التقنية في تسلسل الإدخال.لكنه يعاني بشدة من التعامل مع المتداخلة في فترة متداخلة.ثم نقترح صياغة المهمة كمسألة مسألة الإجابة على مهمة MRC التي تحقق نتيجة أفضل مقارنة بطريقة خط الأنابيب.علاوة على ذلك، يتم استكشاف تقنيات تكبير البيانات وتصميم الخسائر أيضا لتخفيف مشكلة متفرج البيانات والخلل.أخيرا، نحن نحصل على المركز الثالث في مرحلة التقييم النهائي.
تصف هذه الورقة النظام المستخدم من قبل فريق Aimh للتعامل مع المهمة السامية 6. نقترح نهج يعتمد على بنية بناء على نموذج المحول لمعالجة المحتوى متعدد الوسائط (النص والصور) في الميمات.بنية لدينا، تسمى DVTT (محول نصي مرئي مزدوج)، تقترب من المهام الفرعية 1 و 3 من المهمة 6 كمشاكل تصنيف متعددة التسميات، حيث تتم معالجة نص و / أو صور ميمي، واحتمالات وجود كل إقناع محتمليتم إرجاع التقنية نتيجة لذلك.يستخدم DVTT شبكتان كاملا من المحولات التي تعمل على النص والصور مشروطة بشكل متبادل.يعمل أحد الطرائقين كأداة رئيسية والثانية التدخل في إثراء أول واحد، وبالتالي الحصول على طريقتين مميزين للعمل.يتم دمج مخرجات المحولاتين عن طريق حساب احتمالات الاستفادة من كل ملصق ممكن، ويتم تدريب الشبكة الشاملة على نهاية إلى نهاية مع فقدان انتروبيا ثنائي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا