بحث متقدم مدعوم من الذكاء الصنعي

مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

توليد توصيف نصي للصور

Image Captioning

1626 0 121 0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جامعة تشرين مشروع تخرج

تاريخ النشر 2018

مجال البحث الهندسة المعلوماتية

والبحث باللغة العربية

تأليف آدم عضيمه( طالب )

تمت اﻹضافة من قبل adam oudaimah

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

بناء نظام ذكي يقوم بالتعرف على الأصناف الموجودة في صورة وتوليد توصيف نصي لهذه الأغراض الموجودة في الصورة. استخدمنا الشبكات العصبونية الملتفة Convolutional Neural Networks للقيام بعملية استخلاص الأصناف الموجودة في الصورة، وأدخلنا هذه الأصناف إلى شبكة عصبونية تكرارية Recurrent Neural Network للقيام بعملية توليد التوصيف النصي.

مراجعة الذكاء الصنعي:

قُم بترقية الحساب لمشاهدة المحتوى

ملخص البحث

تتناول هذه الورقة البحثية تطوير نموذج جديد قائم على التركيز (attention-based model) لتوليد توصيف نصي للصور. يتم تدريب النموذج باستخدام تقنيات التراجع الخلفي (backpropagation) وتعظيم حد سفلي متغير عشوائيًا (variational lower bound). يتم استخدام قاعدة بيانات MS COCO لتدريب النموذج. تعتمد الورقة على استخدام الشبكات العصبونية الملتفة (CNN) لاستخلاص تمثيلات شعاعية للصور والشبكات العصبونية التكرارية (RNN) لتوليد التوصيف النصي. يتم التركيز على أهمية التركيز في أنظمة الرؤية البشرية وكيف يمكن للنموذج تصحيح الأخطاء عند توليد كلمات غير متوافقة مع الكائنات الموجودة في الصورة. يتم شرح معمارية الشبكات العصبونية الملتفة والتكرارية بالتفصيل، بالإضافة إلى كيفية تدريب النموذج باستخدام مكتبة TensorFlow. يتم تقديم نتائج التدريب على 10000 صورة من قاعدة بيانات MS COCO، حيث بلغت نسبة الدقة حوالي 70%.

قراءة نقدية

تعد الورقة البحثية مساهمة قيمة في مجال توليد التوصيف النصي للصور باستخدام نماذج التركيز. ومع ذلك، يمكن تحسينها من خلال تقديم تحليل أعمق لأداء النموذج على مجموعات بيانات مختلفة وتقديم مقارنة مع نماذج أخرى مشابهة. كما يمكن تحسين الورقة من خلال تقديم تفاصيل أكثر حول كيفية تحسين النموذج للتعامل مع الصور ذات التعقيد العالي. بالإضافة إلى ذلك، يمكن تحسين الورقة من خلال تقديم تحليل أعمق للأخطاء التي يرتكبها النموذج وكيفية تصحيحها.

أسئلة حول البحث

ما هي التقنية المستخدمة لتدريب النموذج في الورقة البحثية؟

يتم تدريب النموذج باستخدام تقنيات التراجع الخلفي (backpropagation) وتعظيم حد سفلي متغير عشوائيًا (variational lower bound).
ما هي قاعدة البيانات المستخدمة لتدريب النموذج؟

تم استخدام قاعدة بيانات MS COCO لتدريب النموذج.
ما هي نسبة الدقة التي حققها النموذج المدرب على قاعدة بيانات MS COCO؟

بلغت نسبة الدقة حوالي 70%.
ما هي الشبكات العصبونية المستخدمة في النموذج لتوليد التوصيف النصي؟

تم استخدام الشبكات العصبونية الملتفة (CNN) لاستخلاص تمثيلات شعاعية للصور والشبكات العصبونية التكرارية (RNN) لتوليد التوصيف النصي.

كلمات مفتاحية

ترجمة الآلة تمييز العناصر نموذج التركيز الشبكات العصبونية الملتفة الشبكات العصبونية التكرارية توليد التوصيف النصي قاعدة بيانات MS COCO

المراجع المستخدمة

Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. Kelvin Xu. 2016

A Critical Review of Recurrent Neural Networks for Sequence Learning. Zachary C. Lipton, John Berkowitz, Charles Elkan. June 5th, 2015

CS231n Convolutional Neural Networks for Visual Recognition

قيم البحث

1135 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

محتوى الويب الحديث - المقالات الإخبارية، منشورات المدونة، الموارد التعليمية، كتيبات التسويق - هي في الغالب متعددة الوسائط.سمة ملحوظة هي إدراج وسائل الإعلام مثل الصور الموضوعة في مواقع ذات مغزى ضمن سرد نصي.في أغلب الأحيان، مصحوبة مثل هذه الصور بتعليقا ت تعليق - إما واقعية أو أسلوبية (مضحكة، مجازية، إلخ) - صنع السرد أكثر مشاركة للقارئ.في حين تم دراسة تصوير الصورة المستقلة على نطاق واسع، فإن تقسيم صورة استنادا إلى المعرفة الخارجية مثل نصها المحيط لا يزال غير مستكشفا.في هذه الورقة، ندرس هذه المهمة الجديدة: بالنظر إلى صورة ومقتيم معرفة غير منظم مرتبطة، فإن الهدف هو إنشاء تعليق سياقي للصورة.

text synergy synergy for contextual نص التآزر التآزر إلى السياق صناعة حمض الفوسفور

المبادئ التوجيهية الصحفية تدرك أخبار الصورة التوضيحية

802 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

مهمة تقصير صورة المقال الإخباري يهدف إلى توليد تعليق وصفية وغنية بالمعلومات لصور المقالة الإخبارية.على عكس التسميات التوضيحية التقليدية التي تصف ببساطة محتوى الصورة بمصطلحات عامة، تتبع تعليق الصور الإخبارية إرشادات صحفية وتعتمد اعتمادا كبيرا على الكي انات المسماة لوصف محتوى الصورة، غالبا ما يرسم السياق من المقالة بأكملها.في هذا العمل، نقترح نهجا جديدا لهذه المهمة، بدافع من إرشادات التسمية التوضيحية التي يتبعها الصحفيون.نهجنا، المبادئ التوجيهية الصحفية تدرك صورة أخبار التسمية التوضيحية (Joganic)، ترفد بنية التسميات التوضيحية لتحسين جودة الجيل وتوجيه تصميم التمثيل الخاص بنا.النتائج التجريبية، بما في ذلك دراسات التفصيل التفصيلية، على مجموعة من مجموعات بيانات واسعة النطاق للجمهورية على نطاق واسع أن جوجاني يتفوق بشكل كبير على الأساليب الحديثة على حد سواء على جيل التسمية التوضيحية ومقاييس الكيانية المسمى.

journalistic guidelines aware article image captioning المبادئ التوجيهية الصحفية تدرك صورة تقسيم الصورة صناعة حمض الفوسفور

الإخفاء المتقن لملف نصي في صورة

2612 - جامعة البعث 2015 ورقة بحثية

سنعرض في هذا البحث طريقة متقنة لإخفاء ملف نصي داخل صورة باستخدام خوارزمية البت الأقل استخداماً و تشفير ذلك النص، مما يسمح بتخزين النصوص باللغة الإنكليزية و العربية و بأحجام مختلفة مما يضمن لنا وصول الملف النصي بالشكل الصحيح و بسرية كبيرة.

Cryptography Data Hiding Steganography Sturdy Encryption Robust إخفاء البيانات تشفير تعمية هاش علم الإخفاء المتقن المتين المزيد..

أخبار البصرية: المعيار والتحديات في أخبار الصورة التسمية

678 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نقترح أن نقترح Captioner أخبار البصرية، وهو نموذج كيائن كيائن لمهمة تقسيم صورة الأخبار. نقدم أيضا Visual News، وهو معيار واسع النطاق يتكون من أكثر من مليون صورة إخبارية إلى جانب المقالات الإخبارية المرتبطة، وتستياؤ الصور، ومعلومات المؤلف، والبيانات ا لوصفية الأخرى. على عكس مهمة تقسيم الصور القياسية، تصور الصور الأخبار المواقف التي يكون فيها الأشخاص والمواقع والأحداث ذات أهمية قصوى. يمكن أن تجمع طريقةنا المقترحة بشكل فعال بين الميزات المرئية والنصية لتوليد التسميات التوضيحية مع معلومات أكثر ثراء مثل الأحداث والكيانات. وبشكل أكثر تحديدا، تم تصميمها على بنية المحولات، يتم تزويد نموذجنا بمزيد من المجهز بتقنيات الانصهار متعددة الوسائط على الرواية وآليات الاهتمام، والتي تم تصميمها لتوليد كيانات اسمه أكثر دقة. تستخدم طريقتنا معلمات أقل بكثير مع تحقيق نتائج تنبؤ أفضل قليلا من الأساليب المنافسة. توضح مجموعة بيانات الأخبار المرئية الأكبر والأكثر تنوعا التحديات المتبقية في تصوير الصور الإخبارية.

آلة تفاعلية image captioning task تقسيم الصور المهمة صناعة حمض الفوسفور

Clipscore: مقياس تقييم مجاني للمرجعية

715 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تم الاعتماد بشكل تقليدي في الصورة على التقييمات التلقائية القائمة على المرجع، حيث يتم مقارنة تعليق الآلات مع التسميات التوضيحية التي كتبها البشر. هذا على النقيض من الطريقة الخالية من المرجعية التي يقوم بها البشر بجودة التسمية التوضيحية. في هذه الورقة ، نبلغ عن النتيجة التجريبية المدهشة التي كليب (Radford et al.، 2021)، نموذج متعدد الوسائط مسبقا على أزواج من صورة 400 متر + التسمية التوضيحية من الويب، يمكن استخدامه للتقييم التلقائي القوي لمعالجة الصور دون الحاجة للحصول على المراجع. تثبت التجارب التي تمتد من عدة شرجي أن قيصرنا الجديد المجاني، مقطورات، يحقق أعلى ارتباط بالأحكام البشرية، مما يتفوق على المقاييس القائمة على المرجع الحالي مثل عصير التفاح والتوابل. تثبت تجارب الحصول على المعلومات على أن Clipscore، مع تركيزها الضيق على توافق نص الصورة، هو تكميلية للمقاييس القائمة على مرجعية موجودة تؤكد على أوجه التشابه النصي النصي. وبالتالي، نقدم أيضا نسخة معدنية مرجعية، Refclipscore، والذي يحقق حتى ارتباط أعلى. تتجاوز مهام الوصف الحرفي، تكشف العديد من دراسات الحالة المجالات التي تنفذ فيها clipscore جيدا (صور Clip-Art، تصنيف النص)، ولكن أيضا حيث إنها أضعف نسبيا مقارنة بالمقاييس المستندة إلى المراجع، على سبيل المثال، التسميات التوضيحية الإخبارية التي تتطلب معرفة سياقية أكثر ثراء وبعد

بناء اللغة التصويرية captioning التوضيحية صناعة حمض الفوسفور

الأسئلة المقترحة

ماذا يعني التنقيب عن البيانات؟

2367 - 0 - - تم طرحه بمساحة (الهندسة المعلوماتية)

التنقيب عن البيانات Data Mining التنقيب عن البيانات

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

جامعة الشرق الأوسط - الأردن

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

توليد توصيف نصي للصور

Image Captioning

اسأل ChatGPT حول البحث

No English abstract

اقرأ أيضاً

الأسئلة المقترحة