ترغب بنشر مسار تعليمي؟ اضغط هنا

نماذج خفيفة الوزن للبيانات المتسلسلة متعددة الوسائط

Lightweight Models for Multimodal Sequential Data

311   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تشمل اللغة البشرية أكثر من مجرد نص؛كما أنه ينقل العواطف من خلال النغمة والإيماءات.نقدم دراسة حالة لثلاث هندسة بسيطة وفعالة قائمة على المحولات لتنبؤ المعنويات والعاطفة في البيانات متعددة الوسائط.يقوم نموذج الانصهار المتأخر بدمج ميزات Unimodal لإنشاء تسلسل ميزة متعددة الوسائط، يجمع نموذج Robin Robin بشكل متكرر بين ميزات BIMODAL باستخدام اهتماما عبر الوسائط، ويجمع نموذج الانصهار الهجين بين ميزات Trimodal و Unimodal معا لتشكيل تسلسل مائع نهائي للتنبؤ بالمشاعر.تبين تجاربنا أن نماذجنا الصغيرة فعالة ومتفوقة على الإصدارات التي تم إصدارها علنا من أنظمة تحليل المعنويات متعددة الوسائط الأكبر والحديثة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أفضل تحجيم (BWS) أفضل منهجية للتعليق على أساس مثيلات مقارنة والترتيب، بدلا من تصنيف أو تسجيل الحالات الفردية.أظهرت الدراسات فعالية هذه المنهجية المطبقة على مهام NLP من حيث جودة عالية من مجموعات البيانات الناتجة عن طريق ذلك.في ورقة مظاهرة النظام هذه، نقدم LitEScale، مكتبة برامج مجانية لإنشاء وإدارة مهام التوضيحية BWS.يحسب LitEScale tuples typles للتعليق ويدير المستخدمين وعملية التوضيحية، ويخلق معيار الذهب النهائي.يمكن الوصول إلى وظائف LitEScale برمجيا من خلال وحدة نمطية Python، أو عبر واجهتين لمستخدمين بديلين، واحدة قائمة على وحدة التحكم النصية ومقرها على الويب.لقد نمت ونشرنا أيضا نسخة كاملة من Litescale كاملة مع دعم متعدد المستخدمين.
أظهرت نماذج Graph Graph الحديثة (KGE) على أساس الهندسة الزئوية إمكانات كبيرة في مساحة تضمين منخفضة الأبعاد. ومع ذلك، لا تزال ضرورة الفضاء القطعي في كوريا العليا مشكوك فيها، لأن الحساب الذي يعتمد على الهندسة الزئوية أكثر تعقيدا بكثير من عمليات Euclide an. في هذه الورقة، استنادا إلى مجموعة من طراز Hyperbolic Typerbolic، نطور اثنين من النماذج المستندة إلى Euclidean خفيفة الوزن، تسمى Rotl و Rot2L. يسبق نموذج ROTL العمليات القطعي مع الحفاظ على تأثير التطبيع المرن. الاستفادة من تحول مكدسة طبقة رواية واستنادا إلى ROTL، يحصل نموذج Rot2L على إمكانية تحسين تمثيل، ومع ذلك يكلف عددا أقل من المعلمات والحسابات من روث. تظهر التجارب على تنبؤ الارتباط أن ROT2L يحصل على الأداء الحديثة على مجموعة من مجموعات البيانات المستخدمة على نطاق واسع في مدمج الرسم البياني المعرفي منخفض الأبعاد. علاوة على ذلك، يحقق Rotl أداء مماثل ك Roth ولكن يتطلب فقط نصف وقت التدريب.
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية، نوضح تجريبيا أن الأداء يتحلل بشكل كبير عند الاستعلام عن نموذج الفيديو النصي متعدد اللغات مع جمل غير إنجليزية. لمعالجة هذه المشكلة، نقدم استراتيجية متعددة الاستخدامات متعددة الاستخدامات متعددة اللغات، وجمع مجموعة بيانات تعليمية متعددة اللغات متعددة اللغات (متعدد HOWTO100M) للتدريب المسبق. تشير التجارب في VTT إلى أن طريقتنا تعمل بشكل كبير على تحسين البحث عن الفيديو في اللغات غير الإنجليزية دون شروح إضافية. علاوة على ذلك، عند توفر التعليقات التوضيحية متعددة اللغات، تتفوقت طريقة لدينا على خطوط الأساس الحديثة بواسطة هامش كبير في البحث عن نص متعدد اللغات للفيديو على VTT و Vatex؛ وكذلك في البحث النص متعدد اللغات إلى الصورة على multi30k. يتوفر نموذجنا ومتعدد HOWTO100M على http://github.com/berniebear/multi-ht100m.
اختارت الأبحاث متعددة الوسائط بشكل كبير في مساحة السؤال الرد على المهمة التي يتم تمديدها إلى السؤال المرئي الرد على الرسوم البيانية، والرسوم البيانية الإجابة عليها وكذلك مسألة مساهمة مدخل متعددة الوسائط.ومع ذلك، فإن كل هذه الاستكشافات تنتج إخراج نصي غير مهني كإجابة.في هذه الورقة، نقترح مهمة رواية - MIMOQA - الإدخال المتعدد الوسائط المتعددة الناتج السؤال الرد الذي يكون فيه الإخراج متعدد الوسائط.من خلال التجارب البشرية، نوضح تجريبيا أن هذه النواتج متعددة الوسائط توفر فهما معرفيا أفضل للإجابات.نقترح أيضا إطارا للردا على السؤال متعدد الوسائط، ميكسبرت، يشتمل على اهتماما نصي مشتركا ومرفقيا نحو إنتاج مثل هذا الناتج متعدد الوسائط.تعتمد طريقنا على مجموعة بيانات متعددة الوسائط غير مصنفة لهذه المشكلة من مجموعات البيانات غير المتوفرة للجمهور.نظهر الأداء الفائق ل Mexbert ضد خطوط أساسية قوية على كل من المقاييس التلقائية وكذلك الإنسان.
إن فهم الفكاهة هو عنصر أساسي لأنظمة NLP التي تواجه الإنسان.في هذه الورقة، نحقق في العديد من الطرق للكشف عن الفكاهة في تصريحات قصيرة كجزء من المهمة المشتركة SEMEVAL-2021 7. للمهمة 1A، نطبق مجموعة من نماذج اللغة المدربة مسبقا مسبقا؛بالنسبة للمهام 1B، 1 C، و 2A، نحقق في العديد من نماذج التعلم الآلية القائمة على الأشجار والخطية.ينص نظامنا النهائي على درجة F1 من 0.9571 (المرتبة 24/58) في المهمة 1A، ورمز من 0.5580 (مرتبة 18/50) في المهمة 1B، درجة F1 من 0.5024 (المرتبة 26/36) في مهمة 1C،ورمز من 0.7229 (المرتبة 45/88) في مهمة 2A.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا