ترغب بنشر مسار تعليمي؟ اضغط هنا

التعرف على النشاط البشري من مقطع فيديو

Human Action Recognition from video data

1072   19   47   0 ( 0 )
 تاريخ النشر 2017
  مجال البحث هندسة اتصالات
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نهدف في هذه الأطروحة إلى التعرف على النشاط البشري من مقطع فيديو. نبدأ بدراسة مرجعية تشمل الطرق والخوارزميات المتّبعة في هذا المجال، وعرض لقواعد البيانات العالمية والطرق المتبعة في الاختبار، ثم ننتقل إلى تصميم نظام للتعرف على النشاط البشري وتنفيذه في بيئة MATLAB.


ملخص البحث
تهدف هذه الأطروحة إلى التعرف على النشاط البشري من مقاطع الفيديو باستخدام خوارزميات معالجة الصور والشبكات العصبونية. تبدأ الدراسة بمراجعة مرجعية تشمل الطرق والخوارزميات المستخدمة في هذا المجال، وتقديم قواعد البيانات العالمية وطرق الاختبار المتبعة. يتم تصميم نظام للتعرف على النشاط البشري وتنفيذه باستخدام بيئة MATLAB، حيث يتم عرض العمل الرياضي بشكل كامل ونتائج الاختبارات والمقارنة مع الطرق المعروفة. تم تحقيق معدل تعرف يصل إلى 98.9% باستخدام قاعدة بيانات عالمية وطريقة اختبار معروفة. كما تقدم الأطروحة طريقة جديدة لتقييم تعقيد أنظمة التعرف على النشاط البشري ومعرفة إمكانية عمل أي نظام معالجة فيديو في الزمن الحقيقي. في النهاية، يتم عرض نتائج بعض الطرق التي تم تجربتها قبل الوصول بالخوارزمية إلى شكلها النهائي، مع شرح مفصل لهذه الطرق.
قراءة نقدية
دراسة نقدية: على الرغم من أن الأطروحة تقدم نتائج ممتازة في مجال التعرف على النشاط البشري، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، يجب التركيز على تحسين الزمن اللازم لاختبار مقطع الفيديو، حيث أن الزمن الحالي قد لا يكون كافياً للتطبيقات الزمن الحقيقي في جميع الحالات. ثانياً، يمكن تحسين الخوارزمية لتكون أكثر مرونة في التعامل مع التحديات مثل تغير الإضاءة والعوائق في الخلفية. ثالثاً، يجب النظر في استخدام تقنيات تعلم عميق أكثر تطوراً مثل الشبكات العصبونية التلافيفية (CNN) لتحسين الأداء بشكل أكبر.
أسئلة حول البحث
  1. ما هو معدل التعرف الذي تم تحقيقه باستخدام الخوارزمية المقترحة؟

    تم تحقيق معدل تعرف يصل إلى 98.9% باستخدام الخوارزمية المقترحة.

  2. ما هي البيئة البرمجية المستخدمة لتنفيذ الخوارزمية؟

    تم تنفيذ الخوارزمية باستخدام بيئة MATLAB.

  3. ما هي الطريقة الجديدة التي قدمتها الأطروحة لتقييم تعقيد الأنظمة؟

    قدمت الأطروحة طريقة جديدة لتقييم تعقيد أنظمة التعرف على النشاط البشري ومعرفة إمكانية عمل أي نظام معالجة فيديو في الزمن الحقيقي.

  4. ما هي التحديات التي تواجه التعرف على النشاط البشري في مقاطع الفيديو؟

    تشمل التحديات تباين نقطة النظر، وجود العوائق، تباين معدل تنفيذ النشاط، الفضاء الذي يؤدي فيه كل شخص نشاطه، وحركة الكاميرا.


المراجع المستخدمة
Wannous Bashar, Jaafar Assef, and Albitar Chadi. "Human Action Recognition using Contour History Images and Neural Networks Classifier." International Research Journal of Engineering and Technology 4.8 (2017): 7
Turaga, Pavan, et al. "Machine recognition of human activities: A survey." IEEE Transactions on Circuits and Systems for Video Technology 18.11 (2008): 1473-1488
Aggarwal, Jake K., and Michael S. Ryoo. "Human activity analysis: A review." ACM Computing Surveys (CSUR) 43.3 (2011): 16
قيم البحث

اقرأ أيضاً

يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا العمل، نأخذ هذا الاتجاه البحثي إلى المعاكس ودراسة تكبير بيانات المجال عبر المجال لمهمة NER.نحن نبحث في إمكانية الاستفادة من البيانات من مجالات الموارد العالية من خلال إسقاطها في مجالات الموارد المنخفضة.على وجه التحديد، نقترح بنية عصبية رواية لتحويل تمثيل البيانات من الموارد العالية إلى مجال موارد منخفضة من خلال تعلم الأنماط (مثل الأناقة والضوضاء والاختصارات، وما إلى ذلك) في النص الذي يميزها ومساحة ميزة مشتركةحيث يتماشى كلا المجالين.نقوم بتجربة مجموعات بيانات متنوعة وإظهار أن تحويل البيانات إلى تمثيل مجال الموارد المنخفض يحقق تحسينات كبيرة على استخدام البيانات فقط من مجالات الموارد العالية.
نحن نحقق في الحث القوي بمساعدة الفيديو، والذي يتعلم محلل دائرة من كل من النص غير المستمر والفيديو المقابل له. التركيز الأساليب الموجودة من التعريفي النحوي متعدد الوسائط على تحريض القواعد الناقص من أزواج الصور النصية، مع نتائج واعدة تظهر أن المعلومات من الصور الثابتة مفيدة في الحث. ومع ذلك، توفر مقاطع الفيديو معلومات أكثر ثراء، بما في ذلك الكائنات الثابتة فقط ولكن أيضا إجراءات وتغيرات الدولة مفيدة لتحقيق عبارات الفعل. في هذه الورقة، نستكشف ميزات غنية (على سبيل المثال الإجراء، الكائن، الكائن، المشهد، الصوت، الوجه، التعرف الحر الحر، خطاب الكلام) من مقاطع الفيديو، مع أخذ نموذج PCFG المركب الأخير كناسما أساسيا. نقترح كذلك نموذج PCFG متعدد الوسائط (MMC-PCFG) لتجميع هذه الميزات الغنية بفعالية من طرائق مختلفة. يتم تدريب MMC-PCFG المقترحين على نهاية إلى نهاية ويتفوق على كل طريقة فردية وأنظمة حديثة سابقة على ثلاثة معايير، I.E. Didemo، Youcook2 و MSRVTT، وتؤكد فعالية الاستفادة من معلومات الفيديو للحصول على الحث القوي غير المنشور.
الغاية من هذا البحث بناء نظام لتصنيف نطق الأرقام الانكليزية وذلك بالاعتماد على نماذج ماركوف المخفية في التصنيف وذلك بالاعتماد على طيف الإشارة في استخراج سمات الإشارات
تهدف اللغة الزمنية الأرضية في مقاطع الفيديو إلى توطين الفترة الزمنية ذات الصلة بالسجن الاستعلام المحدد. الطريقة السابقة تعاملها إما بمهمة الانحدار للحدود أو مهمة استخراج تمتد. ستقوم هذه الورقة بصياغة لغة زمنية تأريض في فهم قراءة الفيديو واقتراح شبكة إعلانات العلاقة (Ranet) لمعالجتها. يهدف هذا الإطار إلى تحديد خيار لحظة فيديو من مجموعة الإجابة المحددة مسبقا بمساعدة Incrse-and-Fine-Query-Query-Quicies Infraction و China- يقترح Interactor Interactor من الاختيار مطابقة المعلومات المرئية والنصية في وقت واحد في مستويات لحظة الجملة ومستويات لحظة الرمز المميز، مما يؤدي إلى تفاعل عبر مشروط خشن وغرامة. علاوة على ذلك، يتم تقديم منشئ علاقة متعددة الخيارات الرواية من خلال الاستفادة من الأزلاء الرسم البياني لالتقاط التبعيات بين خيارات لحظات الفيديو للحصول على أفضل اختيار الخيار. تجارب واسعة النطاق على تصنيف ActivityNet-Campative و Tacos و Charades-Sta تثبت فعالية حلنا. ستكون الرموز متاحة في https://github.com/huntersxsx/ranet.
تم اقتراح التعلم التلوي مؤخرا لتعلم النماذج والخوارزميات التي يمكن أن تعميمها من حفنة من الأمثلة.ومع ذلك، فإن تطبيقات التنبؤ الهيكلية والمهام النصية تشكل تحديات لخوارزميات التعلم التلوي.في هذه الورقة، نحن نطبق اثنين من خوارزميات التعلم التلوي، والشبك ات النموذجية والزواحف الزواحف، إلى عدد قليل من الرصاص التعرف على الكيان (NER)، بما في ذلك طريقة لإدماج نموذج اللغة قبل التدريب والحقول العشوائية الشرطية (CRF).نقترح خطة توليد المهام لتحويل مجموعات بيانات NER الكلاسيكية إلى إعداد القليل من الرصاص، لكل من التدريب والتقييم.باستخدام ثلاث مجموعات بيانات عامة، نظهر أن خوارزميات التعلم التلوي هذه تفوق خطاس بخبراء ذو صقل معقول.بالإضافة إلى ذلك، نقترح مزيجا جديدا من الشبكات النموذجية والزواحف.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا