ترغب بنشر مسار تعليمي؟ اضغط هنا

MIMOQA: مساهمة متعددة الوسائط متعددة الوسائط

MIMOQA: Multimodal Input Multimodal Output Question Answering

372   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

اختارت الأبحاث متعددة الوسائط بشكل كبير في مساحة السؤال الرد على المهمة التي يتم تمديدها إلى السؤال المرئي الرد على الرسوم البيانية، والرسوم البيانية الإجابة عليها وكذلك مسألة مساهمة مدخل متعددة الوسائط.ومع ذلك، فإن كل هذه الاستكشافات تنتج إخراج نصي غير مهني كإجابة.في هذه الورقة، نقترح مهمة رواية - MIMOQA - الإدخال المتعدد الوسائط المتعددة الناتج السؤال الرد الذي يكون فيه الإخراج متعدد الوسائط.من خلال التجارب البشرية، نوضح تجريبيا أن هذه النواتج متعددة الوسائط توفر فهما معرفيا أفضل للإجابات.نقترح أيضا إطارا للردا على السؤال متعدد الوسائط، ميكسبرت، يشتمل على اهتماما نصي مشتركا ومرفقيا نحو إنتاج مثل هذا الناتج متعدد الوسائط.تعتمد طريقنا على مجموعة بيانات متعددة الوسائط غير مصنفة لهذه المشكلة من مجموعات البيانات غير المتوفرة للجمهور.نظهر الأداء الفائق ل Mexbert ضد خطوط أساسية قوية على كل من المقاييس التلقائية وكذلك الإنسان.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في العقد المقبل، سنرى حاجة كبيرة لنماذج NLP للإعدادات المحددة التي ينبغي أن تؤخذ فيها تنوع المواقف وأيطراض مختلفة بما في ذلك حركات العين في الاعتبار من أجل فهم نية المستخدم.ومع ذلك، لا يمكن التعامل مع فهم اللغة في الإعدادات الموجودة بمعزل عن غيرها، ح يث توجد إشارات متعددة الوسائط المختلفة بطبيعتها أجزاء حاضرة وأساسية من المواقف.في هذا الاقتراح البحثي، نهدف إلى تحديد تأثير كل طريقة في التفاعل مع العديد من التعقيدات المرجانية.نقترح ترميز تعقيد المراجع للإعدادات المحددة في المدينين أثناء التدريب المسبق لتوجيه النموذج الضمني إلى أكثر الانحرافات الخاصة بالوضع المعقولا.نحن نلخص تحديات استخراج النية واقتراح نهج منهجي للتحقيق في تكيف ميزة خاصة بالحالة لتحسين رسم الخرائط Crossmodal ومعنى الاسترداد من إعدادات الاتصال الصاخب.
تشمل اللغة البشرية أكثر من مجرد نص؛كما أنه ينقل العواطف من خلال النغمة والإيماءات.نقدم دراسة حالة لثلاث هندسة بسيطة وفعالة قائمة على المحولات لتنبؤ المعنويات والعاطفة في البيانات متعددة الوسائط.يقوم نموذج الانصهار المتأخر بدمج ميزات Unimodal لإنشاء ت سلسل ميزة متعددة الوسائط، يجمع نموذج Robin Robin بشكل متكرر بين ميزات BIMODAL باستخدام اهتماما عبر الوسائط، ويجمع نموذج الانصهار الهجين بين ميزات Trimodal و Unimodal معا لتشكيل تسلسل مائع نهائي للتنبؤ بالمشاعر.تبين تجاربنا أن نماذجنا الصغيرة فعالة ومتفوقة على الإصدارات التي تم إصدارها علنا من أنظمة تحليل المعنويات متعددة الوسائط الأكبر والحديثة.
نقدم نظام TMEKU الخاص بنا المقدم إلى مهمة الترجمة متعددة الوسائط الإنجليزية اليابانية ل WAT 2021. شاركنا في مهمة Flickr30Kent-JP ومهمة MSCOCO MSCOCO MSCOCON تحت الحالة المقيدة باستخدام مجموعات البيانات المقدمة رسميا.توظف نظامنا المقترح محاذاة ناعمة م ن Word-Region للترجمة الآلية العصبية متعددة الوسائط (MNMT).تظهر النتائج التجريبية التي تم تقييمها على متري بلو المقدمة من موقع تقييم WAT 2021 أن نظام TMEKU حقق أفضل أداء بين جميع الأنظمة المشاركة.يوضح تحليل آخر دراسة الحالة أن الاستفادة من محاذاة منطقة الكلمات بين الطرائق النصية والمرئية هي مفتاح تعزيز الأداء في نظام TMEKU الخاص بنا، مما يؤدي إلى استخدام معلومات مرئية أفضل.
مجردة، محاكمة واسعة النطاق واسعة النطاق، هو المنهجية القياسية للعديد من المهام في رؤية الكمبيوتر ومعالجة اللغات الطبيعية.في الآونة الأخيرة، تم اقتراح العديد من الطرق للحصول على رؤوس الرؤية واللغة لمعالجة التحديات عند تقاطع هذين المجالات الرئيسية في م نظمة العفو الدولية.يمكن تصنيف هذه النماذج في تشفير دفق واحد أو دفق مزدوج.نحن ندرس الاختلافات بين هاتين الفئتين، وإظهار كيف يمكن موحد بموجب إطار نظري واحد.ثم نقوم بإجراء تجارب مراقبة لتمييز الاختلافات التجريبية بين خمسة الرؤية والصغيرة.تظهر تجاربنا أن البيانات التدريبية والضغط هي المسؤولة عن معظم الاختلافات بين النتائج المبلغ عنها، لكنها تكشف أيضا أن طبقة التضمين تلعب دورا حاسما في هذه النماذج الضخمة.
الترجمة الآلية تؤدي الترجمة الآلية من لغة طبيعية إلى أخرى. تكمن ترجمة الآلات العصبية بمهارة أحدث في الترجمة الآلية، لكنها تتطلب بيانات تدريبية كافية، وهي مشكلة شديدة لترجمة أزواج لغة الموارد المنخفضة. يتم تقديم مفهوم Multimodal في الترجمة الآلية العص بية (NMT) عن طريق دمج الميزات النصية مع ميزات مرئية لتحسين ترجمة الزوج منخفض الموارد. WAT2021 (ورشة العمل حول الترجمة الآسيوية 2021) تنظم مهمة مشتركة من الترجمة متعددة الوسائط للإنجليزية إلى الهندية. لقد شاركنا نفس الشيء مع اسم الفريق CNLP-NITS-PP في طلبين: متعددة الوسائط والنصية فقط NMT. يحقق هذا العمل في حقن أزواج العبارة عن طريق نهج تكبير البيانات ويحمل تحسين عملنا السابق في Wat2020 في نفس المهمة في كل من NMT النصي فقط و Multimodal NMT. لقد حققنا المرتبة الثانية على مجموعة اختبار التحدي للغة الإنجليزية إلى الهندية الترجمة متعددة الوسائط حيث تقييم ثنائي اللغة من النتيجة 39.28، درجة التقييم البدياسية بديهية سهلة الاستخدام (RIBES) 0.792097، ومقاييس كفاية الطلاقة (AMFM) 0.830230 على التوالي وبعد

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا