ترغب بنشر مسار تعليمي؟ اضغط هنا

يمكن أن تساعد الصور على التعرف على الكيانات؟دراسة دور الصور لعدة متعددة

Can images help recognize entities? A study of the role of images for Multimodal NER

324   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتطلب التعرف على الكيان المسمى MultiModal (MNER) سد الفجوة بين فهم اللغة والسياق المرئي.في حين أن العديد من التقنيات العصبية متعددة الوسائط قد تم اقتراح دمج الصور في مهمة MNER، فإن قدرة النموذج على الاستفادة من التفاعلات متعددة الوسائط لا تزال مفهومة سيئة.في هذا العمل، نقوم بإجراء تحليلات متعمقة من تقنيات الانصهار متعددة الوسائط المتعددة من وجهات نظر مختلفة ووصف السيناريوهات حيث لا تؤدي إضافة معلومات من الصورة دائما إلى زيادة الأداء.ندرس أيضا استخدام التسميات التوضيحية كوسيلة لإثراء السياق ل MNER.تعرض التجارب في ثلاث مجموعات من المنصات الاجتماعية الشعبية عنق الزجاجة من النماذج متعددة الوسائط الحالية والحالات التي يستخدمها المساميرات مفيدة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقوم الترجمة العصبية متعددة اللغات (MNMT) بتدريب نموذج NMT واحد يدعم الترجمة بين لغات متعددة، بدلا من تدريب نماذج منفصلة لغات مختلفة. تعلم نموذج واحد يمكن أن يعزز الترجمة المنخفضة الموارد من خلال الاستفادة من البيانات من لغات متعددة. ومع ذلك، فإن أدا ء نموذج MNMT يعتمد اعتمادا كبيرا على نوع اللغات المستخدمة في التدريب، حيث أن نقل المعرفة من مجموعة متنوعة من اللغات تتحلل أداء الترجمة بسبب النقل السلبي. في هذه الورقة، نقترح مقاربة تقطير المعرفة التسلسل الهرمية (HKD) ل MNMT والتي تتمتع بالجماعات اللغوية التي تم إنشاؤها وفقا للميزات النموذجية والهلوجين من اللغات للتغلب على مسألة النقل السلبي. ينشئ HKD مجموعة من نماذج مساعد المعلم متعددة اللغات عبر آلية تقطير المعرفة الانتقائية تعتمد على مجموعات اللغات، ثم قم بالتقطير النموذج النهائي متعدد اللغات من المساعدين بطريقة تكيف. النتائج التجريبية المشتقة من مجموعة بيانات TED مع 53 لغة توضح فعالية نهجنا في تجنب تأثير النقل السلبي في MNMT، مما يؤدي إلى أداء ترجمة محسنة (حوالي 1 درجة بلو في المتوسط) مقارنة مع خطوط الأساس القوية.
حققت الترجمة الآلية العصبية متعددة اللغات أداء ملحوظا من خلال تدريب نموذج ترجمة واحدة لغات متعددة.تصف هذه الورقة التقديم الخاص بنا (معرف الفريق: CFILT-IITB) لمكتب Multiindicmt: مهمة متعددة اللغات اللغوية في WAT 2021. نقوم بتدريب أنظمة NMT متعددة اللغ ات من خلال تقاسم المعلمات التشفير والكشف مع تضمين اللغة المرتبطة بكل رمزية في كل من التشفير والكشف في كل من التشفير والكشف.علاوة على ذلك، نوضح استخدام الترجمة (تحويل البرنامج النصي) لغارات الجهاز في تقليل الفجوة المعجمية لتدريب نظام NMT متعدد اللغات.علاوة على ذلك، نوضح التحسن في الأداء من خلال تدريب نظام NMT متعدد اللغات باستخدام لغات الأسرة نفسها، أي لغة ذات صلة.
عرِضت في هذا البحث نتائج الأسلوب متعدد الصور من خلال تطبيق عملي يتضمن بناء نموذج ثلاثي الأبعاد لواجهة أثرية في حصن سليمان في منطقة صافيتا. استخدمنا صوراً رقمية تم الحصول عليها باستخدام آلة تصوير رقمية نوع Kodak 8MP و هي آلة تصوير رقمية ذات ذات دقة تم ييز Resolution مناسبة لأعمال التوثيق الدقيق. و لإنجاز النمذجة، استُعين ببرامج مستخدمة على نطاق واسع من قبل المهتمين بالتوثيق الصوري ثلاثي الأبعاد للمنشآت الأثرية.
يقدم البحث طريقة مطورة لكشف مكان نموذج الوجه في الصورة, و ذلك بجمع أكثر من تقنية لتحقيق أفضل نسبة كشف. يبنى نموذج لون بشرة باستخدام الفضاء اللوني (RGB) Red, Green, Blue, لكشف مناطق البشرة و ينتج المناطق المرشحة لتكون الوجه في الصورة. و من خلال تقنية الشبكة العصبونية يتم تدريب مجموعة من صور الوجوه و صور لغير الوجوه (الخلفية) ، بعد إسقاطها على حيز جزئي بواسطة تقنية تحليل المعاملات الأولية بهدف تقليل أبعاد صور التدريب و تقليل الزمن الحسابي. يوجد تعديلين للاستخدام التقليدي للشبكة العصبونية و هما: أولاً, تختبر الشبكة العصبونية مناطق الصورة المرشحة لتكون وجوه فقط, بالنتيجة يتم تقليل حيز البحث. ثانياً, يتم تكييف نافذة مسح الشبكة العصبونية لصورة الدخل, بحيث تعتمد على حجم المنطقة المرشحة لتكون وجه مما يمكن نظام الكشف من كشف الوجوه بحجوم متعددة.
إن الحجم الهائل للصور الرقمية المنتجة من المشافي تزداد بسرعة. الصور الطبية يمكن أن تلعب دوراً مهماً بالمساعدة في التشخيص و المعالجة. و يمكن أن تكون مفيدة أيضاً في مجال التعليم لطلاب الطب بواسطة الشرح لهذه الصور الذي يساعدهم في دراستهم. مجال جديد لاست عادة الصور باستخدام تصنيف الصور الالي تمت مناقشته خلال السنوات الماضية. تصنيف الصور الطبية يمكن أن يلعب دوراً مهماً لأغراض التشخيص و التدريس الطبية. لهذه الاسباب عدة معالجات للصور تم استخدامها. في هذه الورقة أولاً: تمت دراسة مجموعة من الطرائق المتضمنة خلال خطوات معالجة الصور الطبية, مثل المرشح الوسيط, و معادلة الرسم البياني. ثانياً: تحديد و استخراج الخصائص الهامة للصور, كمصفوفة التدرج الرمادي. ثالثاً: تقنيات التصنيف و التي تقسم الى ثلاث طرق: 1- تصنيف الاكساء, 2- تصنيف الشبكات العصبونية, 3- تصنيف ك- أقرب جار. رابعاً: تم في هذا البحث استخدام صور الرنين المغناطيسي للدماغ لتحديد منطقة الورم في الدماغ. تبدأ الخطوات بإجراء معالجة أولية للصورة قبل إدخالها الى الخوارزمية بتحويلها إلى صورة ثنائية بتدرج رمادي ليتم بعد ذلك إزالة المعلومات النصية من الصورة (معلومات المريض و بارامترات صورة الدماغ) و ذلك باستخدام خوارزمية خاصة، بعد ذلك يتم إزالة أجزاء الجمجمة من صورة الدماغ دون التأثير على المادة البيضاء و المادة الرمادية في الدماغ. ثم بعد ذلك يتم استخدام مرشح معدل (مطور) عن المرشح الوسيط لإزالة الشوائب من الصورة الرقمية الناتجة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا