ترغب بنشر مسار تعليمي؟ اضغط هنا

العلاقة - دراسة فيديو القراءة فهم لغرض اللغة الزمنية

Relation-aware Video Reading Comprehension for Temporal Language Grounding

392   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف اللغة الزمنية الأرضية في مقاطع الفيديو إلى توطين الفترة الزمنية ذات الصلة بالسجن الاستعلام المحدد. الطريقة السابقة تعاملها إما بمهمة الانحدار للحدود أو مهمة استخراج تمتد. ستقوم هذه الورقة بصياغة لغة زمنية تأريض في فهم قراءة الفيديو واقتراح شبكة إعلانات العلاقة (Ranet) لمعالجتها. يهدف هذا الإطار إلى تحديد خيار لحظة فيديو من مجموعة الإجابة المحددة مسبقا بمساعدة Incrse-and-Fine-Query-Query-Quicies Infraction و China- يقترح Interactor Interactor من الاختيار مطابقة المعلومات المرئية والنصية في وقت واحد في مستويات لحظة الجملة ومستويات لحظة الرمز المميز، مما يؤدي إلى تفاعل عبر مشروط خشن وغرامة. علاوة على ذلك، يتم تقديم منشئ علاقة متعددة الخيارات الرواية من خلال الاستفادة من الأزلاء الرسم البياني لالتقاط التبعيات بين خيارات لحظات الفيديو للحصول على أفضل اختيار الخيار. تجارب واسعة النطاق على تصنيف ActivityNet-Campative و Tacos و Charades-Sta تثبت فعالية حلنا. ستكون الرموز متاحة في https://github.com/huntersxsx/ranet.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مع الانفراج الأخير لتكنولوجيات التعلم العميق، اجتذبت البحث عن الفهم في قراءة الآلة (MRC) اهتماما كبيرا ووجدت تطبيقاتها متعددة الاستخدامات في العديد من حالات الاستخدام. MRC هي مهمة مهمة لمعالجة اللغة الطبيعية (NLP) تهدف إلى تقييم قدرة الجهاز لفهم تعبي رات اللغة الطبيعية، والتي يتم تشغيلها عادة عن طريق طرح الأسئلة أولا بناء على فقرة نصية معينة ثم تلقي الإجابات التي تم إنشاؤها بواسطة الجهاز وفقا ل إعطاء الفقرة والأسئلة السياق. في هذه الورقة، نستفيد نماذج لغة رواية روبيتين تم بناؤها على رأس تمثيلات التشفير الثنائية من المحولات (بيرت)، وهي بيرت WWM و Macbert، لتطوير أساليب MRC الفعالة. بالإضافة إلى ذلك، نسعى أيضا إلى التحقيق في ما إذا كان قد يستفيد التأسيس الإضافي للمعلومات الفئوية حول فقرة السياق MRC أم لا، والتي تحققت، على أساس تجميع الفقرة السياق على مجموعة بيانات التدريب. من ناحية أخرى، يقترح نهج التعلم الفرعي تسخير القوة التآزرية للنماذج التي تعتمد على برت المذكور أعلاه من أجل زيادة تعزيز أداء MRC.
تهدف أساس التأريض اللغوي (TLG) إلى توطين شريحة فيديو في فيديو غير جذاب بناء على وصف لغة طبيعية. لتخفيف التكلفة الباهظة الثمن التوضيحية للشروح اليدوية لملصقات الحدود الزمنية، نحن مخصصة للإعداد الإشراف ضعيف، حيث يتم توفير أوصاف على مستوى الفيديو فقط لل تدريب. تولد معظم الأساليب الإشرافية الأكثر إشرافا ضعفا مجموعة شريحة مرشحة وتعلم محاذاة متعددة الوسائط من خلال إطار مستمد من MIL. ومع ذلك، يتم فقد الهيكل الزمني للفيديو وكذلك الدلالات المعقدة في الجملة أثناء التعلم. في هذا العمل، نقترح إطار رواية خالية من المرشحين: شبكة محاذاة الدلالات الدلالية الجميلة (FSAN)، ل TLG الإشراف ضعيف. بدلا من عرض الجملة واللحظات المرشحة ككل، يتعلم FSAN محاذاة الدلالات المسلقة عبر الأقراص من قبل وحدة التفاعل عبر مشروط تكرارية، وتولد خريطة محاذاة من الدلالات القابلة للتكنولوجيا الراقية، وتشغيل التأريض مباشرة على أعلى الخريطة. يتم إجراء تجارب واسعة على معايير اثنين واستخدامها على نطاق واسع: تعويضات ActivityNet، و Didemo، حيث تحقق FSAN لدينا أداء حديثة من بين الفن.
آلة قراءة الآلة (MRC)، والتي تتطلب آلة للإجابة على الأسئلة التي تعطى المستندات ذات الصلة، هي طريقة مهمة لاختبار قدرة الآلات على فهم اللغة البشرية.تعد MRC متعددة الخيارات واحدة من أكثر المهام التي تمت دراستها في MRC نظرا لراحة التقييم ومرونة تنسيق الإ جابة.تهدف تفسير ما بعد الهوك إلى شرح نموذج مدرب ويكشف عن كيفية وصول النموذج إلى التنبؤ.واحدة من أهم أشكال التفسير هي أن نسأل قرارات النموذج إلى ميزات المدخلات.بناء على طرق الترجمة الفورية لما بعد الهوك، نقوم بتقييم دعاسة الفقرات في MRC متعددة الخيارات وتحسين النموذج من خلال معاقبة السموم غير المنطقية.يمكن لطريقتنا تحسين أداء النموذج دون أي معلومات خارجية وتغيير هيكل النموذج.علاوة على ذلك، فإننا نحلل أيضا كيف ولماذا تعمل طريقة التدريب الذاتي.
إن الفهم القراءة الآلي (MRC) هو مهمة NLP الصعبة التي يتطلبها التعامل بعناية مع جميع الحبيبات اللغوية من Word، الجملة إلى المرور.بالنسبة إلى MRC الاستخراجية، تم عرض فترة الإجابة في الغالب عن طريق الأدلة الرئيسية الوحدات اللغوية، حيث إنها جملة في معظم الحالات.ومع ذلك، اكتشفنا مؤخرا أن الجمل قد لا تكون محددة بوضوح في العديد من اللغات إلى النطاقات المختلفة، بحيث يؤدي ذلك إلى ما يسمى بمشكلة غموض وحدة الموقع ونتيجة لذلك، مما يجعل من الصعب على النموذج لتحديد الجملة التي تحتوي على تمديد الإجابة بالضبط عندماالجملة نفسها لم يتم تعريفها بوضوح على الإطلاق.مع أخذ اللغة الصينية كدراسة حالة، فإننا نوضح وتحليل هذه الظاهرة اللغوية واقترح قارئ مقابلة مع التنافق الصريح بالإجمال لتخفيف مثل هذه المشكلة.يساعد قارئنا المقترح في النهاية في تحقيق أحدث حالة جديدة في مؤشر MRC الصيني ويظهر إمكانات كبيرة في التعامل مع لغات أخرى.
لقد أثبتت تدريب الخصم (AT) كطريقة تنظيمي فعاليتها على المهام المختلفة.على الرغم من وجود تطبيقات ناجحة في بعض مهام NLP، إلا أن الخصائص المميزة لمهام NLP لم يتم استغلالها.في هذه الورقة، نهدف إلى تطبيق مهام فهم القراءة (MRC).علاوة على ذلك، فإننا نتكيف م ع مهام MRC من خلال اقتراح طريقة تدريبية عديدة جديدة تسمى PQAT التي تتعلق بمصفوفة التضمين بدلا من ناقلات Word.للتمييز بين أدوار الممرات والأسئلة، يستخدم PQAT مصفوفات إضافية P / Q Directding إضافية لجمع الاضطرابات العالمية للكلمات من الممرات والأسئلة بشكل منفصل.نحن نختبر الطريقة على مجموعة واسعة من مهام MRC، بما في ذلك RC الاستخراجية المستندة إلى RC واستخراج RC متعددة الخيارات.تظهر النتائج أن التدريب الخصم فعال عالميا، ويحسن PQAT الأداء.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا