ترغب بنشر مسار تعليمي؟ اضغط هنا

تكييف ميزة متعددة الوسائط الموحدة

Situation-Specific Multimodal Feature Adaptation

387   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في العقد المقبل، سنرى حاجة كبيرة لنماذج NLP للإعدادات المحددة التي ينبغي أن تؤخذ فيها تنوع المواقف وأيطراض مختلفة بما في ذلك حركات العين في الاعتبار من أجل فهم نية المستخدم.ومع ذلك، لا يمكن التعامل مع فهم اللغة في الإعدادات الموجودة بمعزل عن غيرها، حيث توجد إشارات متعددة الوسائط المختلفة بطبيعتها أجزاء حاضرة وأساسية من المواقف.في هذا الاقتراح البحثي، نهدف إلى تحديد تأثير كل طريقة في التفاعل مع العديد من التعقيدات المرجانية.نقترح ترميز تعقيد المراجع للإعدادات المحددة في المدينين أثناء التدريب المسبق لتوجيه النموذج الضمني إلى أكثر الانحرافات الخاصة بالوضع المعقولا.نحن نلخص تحديات استخراج النية واقتراح نهج منهجي للتحقيق في تكيف ميزة خاصة بالحالة لتحسين رسم الخرائط Crossmodal ومعنى الاسترداد من إعدادات الاتصال الصاخب.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

اختارت الأبحاث متعددة الوسائط بشكل كبير في مساحة السؤال الرد على المهمة التي يتم تمديدها إلى السؤال المرئي الرد على الرسوم البيانية، والرسوم البيانية الإجابة عليها وكذلك مسألة مساهمة مدخل متعددة الوسائط.ومع ذلك، فإن كل هذه الاستكشافات تنتج إخراج نصي غير مهني كإجابة.في هذه الورقة، نقترح مهمة رواية - MIMOQA - الإدخال المتعدد الوسائط المتعددة الناتج السؤال الرد الذي يكون فيه الإخراج متعدد الوسائط.من خلال التجارب البشرية، نوضح تجريبيا أن هذه النواتج متعددة الوسائط توفر فهما معرفيا أفضل للإجابات.نقترح أيضا إطارا للردا على السؤال متعدد الوسائط، ميكسبرت، يشتمل على اهتماما نصي مشتركا ومرفقيا نحو إنتاج مثل هذا الناتج متعدد الوسائط.تعتمد طريقنا على مجموعة بيانات متعددة الوسائط غير مصنفة لهذه المشكلة من مجموعات البيانات غير المتوفرة للجمهور.نظهر الأداء الفائق ل Mexbert ضد خطوط أساسية قوية على كل من المقاييس التلقائية وكذلك الإنسان.
الترجمة الآلية العصبية متعددة الوسائط (MNMT) هي مهمة مثيرة للاهتمام في معالجة اللغة الطبيعية (NLP) حيث نستخدم طرائق مرئية إلى جانب جملة مصدر لمساعدة المصدر لعملية الترجمة المستهدفة.في الآونة الأخيرة، كان هناك الكثير من الأعمال في أطر MNMT لتعزيز أداء مهام الترجمة ذات الجهاز المستقل.حاولت معظم الأعمال السابقة في MNMT إجراء الترجمة بين لغتان معروفتين على نطاق واسع (على سبيل المثال English-to-German، الإنجليزية إلى الفرنسية).في هذه الورقة، نستكشف فعالية أساليب MNMT المختلفة، والتي تستخدم تقنيات مختلفة الموجهة نحو البيانات بما في ذلك التدريب المسبق متعدد الوسائط، لغات موارد منخفضة.على الرغم من أن الأساليب الحالية تعمل بشكل جيد على لغات الموارد العالية، إلا أن قابلية استخدام تلك الأساليب على لغات الموارد المنخفضة غير معروفة.في هذه الورقة، نقيم الطرق الحالية على الهندية والإبلاغ عن نتائجنا.
تشمل اللغة البشرية أكثر من مجرد نص؛كما أنه ينقل العواطف من خلال النغمة والإيماءات.نقدم دراسة حالة لثلاث هندسة بسيطة وفعالة قائمة على المحولات لتنبؤ المعنويات والعاطفة في البيانات متعددة الوسائط.يقوم نموذج الانصهار المتأخر بدمج ميزات Unimodal لإنشاء ت سلسل ميزة متعددة الوسائط، يجمع نموذج Robin Robin بشكل متكرر بين ميزات BIMODAL باستخدام اهتماما عبر الوسائط، ويجمع نموذج الانصهار الهجين بين ميزات Trimodal و Unimodal معا لتشكيل تسلسل مائع نهائي للتنبؤ بالمشاعر.تبين تجاربنا أن نماذجنا الصغيرة فعالة ومتفوقة على الإصدارات التي تم إصدارها علنا من أنظمة تحليل المعنويات متعددة الوسائط الأكبر والحديثة.
نقدم نظام TMEKU الخاص بنا المقدم إلى مهمة الترجمة متعددة الوسائط الإنجليزية اليابانية ل WAT 2021. شاركنا في مهمة Flickr30Kent-JP ومهمة MSCOCO MSCOCO MSCOCON تحت الحالة المقيدة باستخدام مجموعات البيانات المقدمة رسميا.توظف نظامنا المقترح محاذاة ناعمة م ن Word-Region للترجمة الآلية العصبية متعددة الوسائط (MNMT).تظهر النتائج التجريبية التي تم تقييمها على متري بلو المقدمة من موقع تقييم WAT 2021 أن نظام TMEKU حقق أفضل أداء بين جميع الأنظمة المشاركة.يوضح تحليل آخر دراسة الحالة أن الاستفادة من محاذاة منطقة الكلمات بين الطرائق النصية والمرئية هي مفتاح تعزيز الأداء في نظام TMEKU الخاص بنا، مما يؤدي إلى استخدام معلومات مرئية أفضل.
وقد ثبت أن التعرف على الكيان المسمى (NER) قد يستفيد من دمج المعلومات المهيكلة لمسافات طويلة التي تم التقاطها بواسطة أشجار التبعية. نعتقد أن هذا هو أن كلا النوعين من الميزات - المعلومات السياقية التي تم التقاطها من خلال التسلسلات الخطية والمعلومات الم هيكلة التي تم الاستيلاء عليها أشجار التبعية قد تكمل بعضها البعض. ومع ذلك، تركز النهج الحالية إلى حد كبير على تكديس الشبكات العصبية LSTM والرسم البيانية مثل الشبكات التنافسية الرسم البيانية (GCNS) لبناء نماذج NER محسنة، حيث لا تكون آلية التفاعل الدقيقة بين النوعين من الميزات واضحة للغاية، وتكسب الأداء يبدو أن تكون كبيرة. في هذا العمل، نقترح حلا بسيطا وقويا لدمج كلا النوعين من الميزات مع تآزرنا - LSTM (SYN-LSTM)، والذي يلتقط بوضوح كيف يتفاعل نوعان الميزات. نقوم بإجراء تجارب مكثفة على العديد من البيانات القياسية عبر أربع لغات. تظهر النتائج أن النموذج المقترح يحقق أداء أفضل من الأساليب السابقة مع مطالبة معلمات أقل. يوضح تحليلنا الإضافي أن نموذجنا يمكنه التقاط تبعيات أطول مقارنة مع خطوط الأساس القوية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا