تعتبر عملية الاختزال الذكية، لعرض محتويات الفيديو من الأمور الأساسية المطروحة في أدبيات الرؤيا الحاسوبية، لما لها من أهمية في تقليص الحجم اللازم لتخزين الفيديو في مختلف الوسائط، و بالأخص في الهواتف النقالة و كميرات المراقبة، و تقليص في الوقت اللازم لمشاهدة الفيديو.
تتلخص عملية الاختزال الذكية، ببناء برمجية قادرة على عرض و تخزين المحتوى الهام من المشاهد، التي تحتوي على تفاصيل متجددة، إما من ناحية الصورة، أو من ناحية الصوت المرافق، و حذف المشاهد ذات المحتوى المتكرر من التفاصيل.
تم في هذا البحث تقديم منهجية عمل جديدة لاستخلاص المشاهد ذات التفاصيل الجديدة في الصورة و الصوت، دون التأثير على استمرارية الحركة ضمن الفيديو، و بشكل يضمن مشاهدة مستمرة؛ حيث اعتمدت منهجية العمل على خوارزميتين أساسيتين: الخوارزمية الأولى تعمل على استخلاص المشاهد ذات التفاصيل المتغيرة في الصورة، بالاعتماد على القيم الذاتية للمشاهد، التي تبدي تغير كبير يلازم أي تغير في تفاصيل المشهد، بينما الخوارزمية الثانية تعمل على استخلاص الصوت ذو التفاصيل المتغيرة، معتمدة على خوارزمية مقدمة عام 1985 من [1]، التي يمكنها أن تقنّع الإشارة المدروسة بغلاف ثنائي القيمة 1 أو 0، في منطقة الإشارة المحتوية على تفاصيل يأخذ القيمة 1 ، بينما في المنطقة غير المحتوية على تفاصيل يأخذ القيمة 0. يتم تنفيذ الخوارزميتين بشكل متزامن، و بالتالي يتم استخلاص المشاهد المتغيرة، و الإشارة الصوتية المرافقة لها.
تمّ تطبيق منهجية العمل على مقاطع فيديو كبيرة و متنوعة من حيث حركة الأغراض ضمنها، و حققت فعالية جيدة جداً، محققة دقة كبيرة في التزامن بين المشاهد، و الصوت المرافق لها.
Smart shorthand, to display video content, is one of the main problems in computer vision
literature, because it is important to reduce the size of video storage in various media,
especially in mobile phones and monitoring cameras, and reduce the time needed to watch
video.
The smart shorthand process is to build software capable of displaying and save important
content from the viewer, which contains new details, either in terms of the image or in the
accompanying voice and deleting scenes with repeated content.
In this research, a new methodology was introduced to extract new scenes in the image and
sound, without affecting the continuity of motion within the video, and in a manner that
ensures continuous viewing. The methodology relied on two basic algorithms: the first
algorithm works to extract scenes with variable details in the image, based on the
eigenvalues of the scenes, which show a significant change in the details of the scene,
while the second algorithm is based on the extraction of sound with variable details, based
on the algorithm introduced in 1985 from [1], which can encode the sound signal with a
double-value frame 1 or 0, in the signal area containing details that takes value 1, while in
the non- Details takes value 0, the two algorithms are executed synchronously, and thus the
variable scenes and the adjacent acoustic signal are drawn.
The methodology used to work on large video clips in terms of movement of objects
within them has achieved very good effectiveness, great accuracy in synchronization
between the scenes and sound adjacent to them.
Artificial intelligence review:
Research summary
تتناول هذه الورقة البحثية موضوع نظام ذكي لتقليص حجم وزمن عرض الفيديو، وهو موضوع مهم في مجال الرؤية الحاسوبية. يهدف البحث إلى تطوير برمجية قادرة على عرض وتخزين المحتوى الهام من الفيديو، مع حذف المشاهد المتكررة. تعتمد المنهجية المقترحة على خوارزميتين رئيسيتين: الأولى لاستخلاص المشاهد ذات التفاصيل المتغيرة في الصورة باستخدام القيم الذاتية، والثانية لاستخلاص الصوت المتغير باستخدام خوارزمية تعتمد على نظرية نايكويست-شانون. تم تطبيق المنهجية على مقاطع فيديو متنوعة وحققت نتائج فعالة في تقليص حجم الفيديو مع الحفاظ على دقة التزامن بين المشاهد والصوت. كما تم استخدام الهرم الغاوسي لتقليل حجم الإطارات ومعالجة الصوت باستخدام عدة خطوات تشمل التنعيم، الاشتقاق، التربيع، التكامل، وكشف القمة. النتائج أظهرت أن المنهجية المقترحة فعالة في تقليص حجم الفيديو وزمن عرضه مع الحفاظ على جودة المحتوى وتزامن الصوت مع الصورة. تم تنفيذ الخوارزمية باستخدام لغة البرمجة جافا ومكتبات متعددة لمعالجة الفيديو والصوت. الخوارزمية المقترحة تعتبر ذات أهمية اقتصادية كبيرة خاصة في أنظمة الهواتف النقالة وكاميرات المراقبة.
Critical review
تعتبر هذه الورقة البحثية خطوة مهمة نحو تحسين تقنيات تقليص حجم وزمن عرض الفيديو، ولكن هناك بعض النقاط التي يمكن تحسينها. أولاً، تعتمد المنهجية بشكل كبير على القيم الذاتية والهرم الغاوسي، مما قد يتطلب موارد حسابية كبيرة ويزيد من تعقيد النظام. ثانياً، لم يتم التطرق بشكل كافٍ إلى كيفية التعامل مع الفيديوهات ذات الجودة العالية أو الفيديوهات التي تحتوي على مشاهد سريعة الحركة. ثالثاً، يمكن تحسين الخوارزمية من خلال دمج تقنيات التعلم الآلي لتوقع القيم الذاتية ومستوى الهرم المناسب لكل فيديو بشكل ديناميكي. أخيراً، يمكن أن تكون النتائج أكثر شمولية إذا تم اختبار الخوارزمية على مجموعة أكبر من الفيديوهات المتنوعة من حيث المحتوى والجودة.
Questions related to the research
-
ما هي الأهداف الرئيسية لهذا البحث؟
يهدف البحث إلى تطوير برمجية قادرة على تقليص حجم وزمن عرض الفيديو من خلال استخلاص المشاهد الهامة وحذف المشاهد المتكررة، مع الحفاظ على تزامن الصوت والصورة.
-
ما هي الخوارزميات المستخدمة في المنهجية المقترحة؟
تعتمد المنهجية على خوارزميتين رئيسيتين: الأولى لاستخلاص المشاهد ذات التفاصيل المتغيرة في الصورة باستخدام القيم الذاتية، والثانية لاستخلاص الصوت المتغير باستخدام خوارزمية تعتمد على نظرية نايكويست-شانون.
-
ما هي التحديات التي واجهتها المنهجية المقترحة؟
من التحديات الرئيسية التي واجهتها المنهجية هي الحاجة إلى موارد حسابية كبيرة لحساب القيم الذاتية، وصعوبة التعامل مع الفيديوهات ذات الأبعاد المستطيلة، بالإضافة إلى الحاجة إلى تحسين تزامن الصوت مع الصورة.
-
كيف تم تقييم فعالية الخوارزمية المقترحة؟
تم تقييم فعالية الخوارزمية من خلال تطبيقها على 100 فيديو متنوع، حيث أظهرت النتائج أن الخوارزمية حققت درجة فهم تصل إلى 86.65% ودرجة تزامن تصل إلى 99% بين الصوت والصورة.
References used
PAN, J., TOMPKINS, W. J. A real-time QRS detection algorithm. IEEE Trans. Biomed. Eng., BME-32(3), 1985 pp 230-236
VIJEETKUMAR, B., DINESH, R., PUNITHA, .P, RAO, V. Key frame extraction and shot boundary detection using Eigenvalues. International Journal of Information and Electronics Engineering vol. 5, no. 1, India, 2015 pp 40-45
ESAKKIRAJAN, S., JAYARAMAN, S., VEERAKUMAR, T. Digital Image processing. Tata McGraw Hill, New Delhi, 2015 pp 719
This research introduces a new approach to reduce time execution
of processing programs, by reducing the amount of processed data,
especially in applications where the priority is to the execution time
of the program over the detailed information of captured pictures,
such as detection and tracking systems.
In this paper, we introduce FITAnnotator, a generic web-based tool for efficient text annotation. Benefiting from the fully modular architecture design, FITAnnotator provides a systematic solution for the annotation of a variety of natural language p
This Research presents a detailed study and practical design for the
construction, programming and implementation of the system to
receive SMS messages sent from a mobile phone or more to the
SIM card placed with in the circuit (GSM-MODULE) connected in
turn with a microcontroller which translates and shows this message
on the optical matrix.
This research aimed at studying the effect of demographic variables on consumer behavior of buying towards packaging size of the preserved food and the place and the time of shopping in the governorate of Latakia.
Using descriptive analytical study
Real-time multimedia transport over MANET has stringent bandwidth, delay, and loss requirements. It is
a great challenge to support such applications in wireless ad hoc networks, which are characterized by
frequent link failures, congestion, and lack of central administration.