ترغب بنشر مسار تعليمي؟ اضغط هنا

استرجاع، تشبيه، وتكوين: إطار للتعميم التركيبي في تقسيم الصور

Retrieval, Analogy, and Composition: A framework for Compositional Generalization in Image Captioning

431   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

من المتوقع أن تحتوي أنظمة التسمية على الصور القدرة على الجمع بين المفاهيم الفردية عند وصف المشاهد مع مجموعات المفاهيم التي لم يتم ملاحظتها أثناء التدريب. على الرغم من التقدم الكبير في تقسيم الصور بمساعدة إطار الجيل التلقائي التلقائي، تفشل النهج الحالية في التعميم بشكل جيد إلى مجموعات مفهوم جديدة. نقترح إطارا جديدا يدور حول التحقيق في العديد من مثيلات تدريب التسمية التوضيحية في الصورة المماثلة (استرجاع)، وأداء المناسبات التناظرية على الكيانات ذات الصلة في النماذج الأولية المستردة (القياس)، وتعزيز عملية التوليد بنتائج المنطق (التكوين). تعزز طريقةنا نموذج الجيل عن طريق الإشارة إلى الحالات المجاورة في التدريب المحدد لإنتاج مجموعات مفهوم جديدة في التسميات التوضيحية المولدة. نقوم بإجراء تجارب على معايير تقسيم الصور المستخدمة على نطاق واسع. تحقق النماذج المقترحة تحسنا كبيرا على أساس الأساس المقارنة على كل من مقاييس التقييم المرتبطة بالتكوين ومقاييس تقسيم الصور التقليدية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

محتوى الويب الحديث - المقالات الإخبارية، منشورات المدونة، الموارد التعليمية، كتيبات التسويق - هي في الغالب متعددة الوسائط.سمة ملحوظة هي إدراج وسائل الإعلام مثل الصور الموضوعة في مواقع ذات مغزى ضمن سرد نصي.في أغلب الأحيان، مصحوبة مثل هذه الصور بتعليقا ت تعليق - إما واقعية أو أسلوبية (مضحكة، مجازية، إلخ) - صنع السرد أكثر مشاركة للقارئ.في حين تم دراسة تصوير الصورة المستقلة على نطاق واسع، فإن تقسيم صورة استنادا إلى المعرفة الخارجية مثل نصها المحيط لا يزال غير مستكشفا.في هذه الورقة، ندرس هذه المهمة الجديدة: بالنظر إلى صورة ومقتيم معرفة غير منظم مرتبطة، فإن الهدف هو إنشاء تعليق سياقي للصورة.
هدفنا من خلال هذه الدراسة في إطار المشروع الفصلي للسنة الرابعة إلى إلقاء الضوء على استرجاع الصور من مجموعة كبيرة بالاعتماد على محتوى صورة هدف , و قمنا بتدعيم هذه الدراسة بتطبيق ضمن بيئة الماتلاب لبرنامج بحث عن الصور المشابهة لصورة مدخلة . و قد تركز بحثنا على ميزتين هامتين يكاد لا يخلو منها أي نظام بحث عن الصور بالاعتماد على المحتوى و هما ميزتي الهيستوغرام اللوني و بنية الصورة texture , ووضحنا الخطوات التي يتم في ضوئها عملية الاسترجاع بدءاً من تحليل الصورة و استخلاص شعاع الواصفات الخاص فيها , و مطابقته مع أشعة الميزات الخاصة بالصور الموجودة في قاعدة البيانات ليتم ترتيب الصور بحسب مدى تشابهها من الصورة الهدف . و تطرقت الدراسة إلى استخدام الفضاء اللوني HMMD كبديل للفضاء اللوني RGB لاستخراج واصفات البنية اللونية على اعتبار أنه نموذج لوني موجه بالمستخدم user oriented و بالتالي نضمن أن نحصل على نتائج أفضل ترضي المستخدم . وقمنا بتدعيم الدراسة بعدد من الأشكال و الأمثلة و المخططات التي توضح محتوى الدراسة النظرية و ما قمنا بعمله في التطبيق ضمن بيئة الماتلاب .
على الرغم من تطبيق نماذج التسلسل العصبي للتسلسل بنجاح على التحليل الدلالي، إلا أنها تفشل في التعميم التركيبي، أي أنها غير قادرة على التعميم بشكل منهجي لتركيبات غير مرئية من مكونات المشاهدة. بدافع من التحليل الدلالي التقليدي حيث يتم احتساب التركيز بشك ل صريح من قبل النحو الرمزي، نقترح إطار فك التشفير الجديد الذي يحافظ على التعبير عن النماذج والعمومية من نماذج التسلسل إلى التسلسل مع تضم محاذاة على غرار المعجم ومعالجة المعلومات المنفذة. على وجه التحديد، نقوم بتحلل فك التشفير في مرحلتين حيث يتم وضع علامة على حامل الإدخال أولا مع رموز الدلالية التي تمثل معنى الكلمات الفردية، ثم يتم استخدام نموذج تسلسل إلى تسلسل للتنبؤ بتصميم تمثيل المعنى النهائي على الكلام والعلامة المتوقعة تسلسل. النتائج التجريبية على ثلاث مجموعات بيانات تحليل الدلالات توضح أن النهج المقترح يحسن باستمرار التعميم التركيبي عبر الهندسة النموذجية والنطاقات والإضفاءات الدلالية.
تعد أنظمة استرجاع الصور الطبية اعتماداً على المحتوى من التقنيات الحديثة التي يسعى الباحثون إلى تكاملها مع أنظمة التشخيص بمساعدة الحاسوب. تقوم هذه الأنظمة أساساً بإيجاد صور في قاعدة بيانات تضم مجموعة كبيرة من الصور ذات محتوى مشابه لصورة استعلام معينة. يجري الاستعلام عن طريق استخلاص الخصائص البصرية للصورة المعينة و صياغتها في متجه خصائص تَُقارن مكوناته بمتجهات الخصائص للصور الموجودة في قاعدة البيانات و يقاس التشابه، و من ثم تسَترجع الصور التي لها محتوى مشابه لصورة الاستعلام. تقدم هذه الورقة تقييماً للوضع الراهن لأنظمة استرجاع الصور الطبية اعتماداً على المحتوى بناء على دراسة تحليلية للبحوث الحديثة المنشورة، و تخلص إلى استنتاج اتجاهات بحثية محددة في هذا المجال.
نحن نصف خسارة اهتمام مدفوع المستوى الذي يحسن التعميم التركيبي في المحللين الدلاليين.يعتمد نهجنا على الخسائر القائمة التي تشجع على خرائط الاهتمام في نماذج التسلسل العصبي إلى التسلسل لتقليد إخراج خوارزميات محاذاة الكلمة الكلاسيكية.حيث استخدم العمل السا بق محاذاة على مستوى الكلمات، ونحن نركز على يمتد؛اقتراض الأفكار من الترجمة الآلية القائمة على العبارة، نحن محاذاة السكتة الدلالية في تبييل الدلالي إلى امتداد جمل المدخلات، وتشجيع آليات الاهتمام العصبي لتقليد هذه المحاذاة.تعمل هذه الطريقة على تحسين أداء المحولات، RNNs، والكفران الهيكلية على ثلاثة معايير للتعميم التركيبي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا