ترغب بنشر مسار تعليمي؟ اضغط هنا

توطين الفيديو باللغة الطبيعية مع مقترحات لحظة معرفة

Natural Language Video Localization with Learnable Moment Proposals

249   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نظرا لفيديو غير جذوع واستعلام لغة طبيعية، يهدف توطين فيديو اللغة الطبيعي (NLVL) إلى تحديد لحظة الفيديو الموصوفة بواسطة الاستعلام. لمعالجة هذه المهمة، يمكن تجميع الأساليب الحالية تقريبا إلى مجموعتين: 1) نماذج اقتراح ورتبة تحدد أولا مجموعة من المرشحين لحظة مصممة باليد، ثم اكتشفوا أفضل واحد مطابقة. 2) النماذج الخالية من الاقتراح تنبئ مباشرة اثنين من الحدود الزمنية لحظة المرجعية من الإطارات. حاليا، تقريبا جميع طرق الاقتراح والرتبة لها أداء أدنى أقل من نظرائها الخالية من الاقتراح. في هذه الورقة، نجادل بأن أداء نماذج الاقتراح والرسوم يتم تقليله بسبب الإصابة المحددة مسبقا: 1) من الصعب ضمان القواعد المصممة باليد التغطية الكاملة للقطاعات المستهدفة. 2) لحظات مرشح العينات كثيفة تسبب حسابا زائدة عن الحاجة ويخفض أداء عملية الترتيب. تحقيقا لهذه الغاية، نقترح نموذجا جديدا نموذج LPNET (شبكة اقتراح مقترح ل NLVL) مع مجموعة ثابتة من مقترحات اللحظات المحددة. يتم تعديل موضع وطول هذه المقترحات ديناميكيا أثناء عملية التدريب. علاوة على ذلك، تم اقتراح خسارة على علم الحدود لاستفادة من المعلومات على مستوى الإطار وأيضا تحسين الأداء. أظهرت الاعتداءات الواسعة على اثنين من معايير NLVL التحدي فعالية LPNET على الطرق الحالية من الأساليب الحالية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يحقق نماذج اللغة التعلم المستندة عميقا (DL) أداء عال في مختلف المعايير لاستدلال اللغة الطبيعية (NLI).وفي هذا الوقت، يتلقى النهج الرمزية ل NLI اهتماما أقل.كلا النهجين (الرمزي و DL) لديهم مزاياهم وموضعاتهم.ومع ذلك، حاليا، لا توجد طريقة تجمع بينها في نظ ام لحل مهمة NLI.لدمج أساليب التعلم الرمزي والعميقة، نقترح إطار استنتاجي يسمى NeuRallog، والذي يستخدم محرك الاستدلال المنطقي على حد سواء ونموذج لغة الشبكة العصبية لمحاذاة العبارة.نماذج إطار عملنا مهمة NLI كصورة بحث كلاسيكية وتستخدم خوارزمية البحث في شعاع البحث عن مسارات الاستدلال الأمثل.تظهر التجارب أن نظامنا المشترك ومنطق الاستدلال العصبي يحسن الدقة في مهمة NLI ويمكن أن تحقق دقة حديثة على مجموعات البيانات المريضة والمتوسطة.
تمثل قدرة تعلم التعلم من تمثيلات الإعجاب خطوة رئيسية لأنظمة NLP القابلة للتفسير حيث تتيح السيطرة على الميزات اللغوية الكامنة.تعتمد معظم الأساليب التي يتعرض لها DEVENTANGLEMELLEMES على المتغيرات المستمرة، سواء بالنسبة للصور والنص.نقول أنه على الرغم من أن تكون مناسبا لمجموعات بيانات الصورة، قد لا تكون المتغيرات المستمرة مثالية لميزات نموذجية للبيانات النصية، بسبب حقيقة أن معظم العوامل الإدارية في النص منفصلة منفصلة.نقترح طريقة استنادا عن السيارات التلقائية التي تتميز بها النماذج بمثابة متغيرات منفصلة وتشجع الاستقلال بين المتغيرات لتعلم تمثيلات الإعانات.يتفوق النموذج المقترح على خطوط أساسية مستمرة ومنفصلة حول العديد من المعايير النوعية والكمية لإجراءات DEVENTANGELES وكذلك على تطبيق Text Style Toystream.
تستكشف هذه المقالة إمكانية معالجة اللغات الطبيعية (NLP) لتمكين نموذج شرطة مركزة وأقل فعالية وأقل من المواجهة التي كانت تستهلك حتى الآن من الموارد لتنفيذ الحجم. الشرطة المنحى للمشاكل (البوب) هي استبدال محتمل، على الأقل جزئيا، بالنسبة للشرطة التقليدية التي تعتمد نهجا تفاعلا، تعتمد اعتمادا كبيرا على نظام العدالة الجنائية. على النقيض من ذلك، يسعى البوب ​​لمنع الجريمة من خلال التلاعب بالظروف الأساسية التي تسمح بالارتكاب الجرائم. يتطلب تحديد هذه الشروط الأساسية فهما مفصلا لأحداث الجريمة - معرفة ضمنية تعقد غالبا من قبل ضباط الشرطة ولكن يمكن أن تكون صعبة للغاية للاستمتاع ببيانات الشرطة المهيكلة. يوجد أحد المصدر المحتمل للنصية في بيانات نصية مجانية غير منظمة تجمعها الشرطة لأغراض التحقيق أو الإدارة. ومع ذلك، فإن وكالات الشرطة لا تحتوي عادة على المهارات أو الموارد لتحليل هذه البيانات على نطاق واسع. في هذه المقالة، نقول أن NLP يقدم القدرة على فتح هذه البيانات غير المنظمة وبالتالي السماح للشرطة بتنفيذ المزيد من مبادرات البوب. ومع ذلك، نحذر أن استخدام نماذج NLP دون معرفة كافية قد يسمح إما بإدخال التحيز داخل البيانات التي تؤدي إلى نتائج غير مواتية.
تقتصر مقاييس تقييم سؤال الفيديو (VIDQA) على إجابة كلمة واحدة أو اختيار عبارة من مجموعة ثابتة من العبارات.هذه المقاييس تحد من سيناريو تطبيق نماذج VIDQA.في هذا العمل، نستفيد الأدوار الدلالية المستمدة من أوصاف الفيديو لإخفاء عبارات معينة، لإدخال VIDQAP الذي يطرح VIDQA كامرأة تعبئة العبارة.لتمكين تقييم الجمل الإجابة، نحسب التحسين النسبي للإجابة المتوقعة مقارنة بسلسلة فارغة.لتقليل تأثير التحيز اللغوي في مجموعات بيانات VIDQA، نسترجع شريط فيديو له إجابة مختلفة لنفس السؤال.لتسهيل البحث، نقوم ببناء AttactNet-SRL-QA و Charads-SRL-QA ومقاييسهم عن طريق تمديد ثلاث نماذج لغة رؤية.نحن نقوم بإجراء تحليل مكثف ودراسات ablative لتوجيه العمل في المستقبل.الرمز والبيانات عامة.
تقدم هذه الورقة مجموعة بيانات جديدة للفيديو واللغة مع إجراءات بشرية للاستدلال المنطقي متعدد الوسائط، والتي تركز على التعبيرات المتعمدة وجوقية تصف الإجراءات البشرية الديناميكية.تتكون DataSet من 200 فيديو، 5554 ملصقات عمل، و 1،942 ثلاثة توائم عمل من ال نموذج (الموضوع، المسند، كائن) يمكن ترجمته بسهولة إلى تمثيلات دلالية منطقية.من المتوقع أن تكون DataSet مفيدة لتقييم أنظمة الاستدلال متعددة الوسائط بين مقاطع الفيديو والجمل المعقدة الدلوية بما في ذلك النفي والكمية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا