ترغب بنشر مسار تعليمي؟ اضغط هنا

بناء مجموعة بيانات الفيديو واللغة مع إجراءات بشرية للاستدلال المنطقي متعدد الوسائط

Building a Video-and-Language Dataset with Human Actions for Multimodal Logical Inference

365   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة مجموعة بيانات جديدة للفيديو واللغة مع إجراءات بشرية للاستدلال المنطقي متعدد الوسائط، والتي تركز على التعبيرات المتعمدة وجوقية تصف الإجراءات البشرية الديناميكية.تتكون DataSet من 200 فيديو، 5554 ملصقات عمل، و 1،942 ثلاثة توائم عمل من النموذج (الموضوع، المسند، كائن) يمكن ترجمته بسهولة إلى تمثيلات دلالية منطقية.من المتوقع أن تكون DataSet مفيدة لتقييم أنظمة الاستدلال متعددة الوسائط بين مقاطع الفيديو والجمل المعقدة الدلوية بما في ذلك النفي والكمية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في حين أن العديد من خطوط أنابيب NLP تفترض أن النصوص النظيفة النظيفة، فإن العديد من النصوص التي نواجهها في البرية، بما في ذلك الغالبية العظمى من المستندات القانونية، ليست نظيفة للغاية، حيث يجري العديد منهم وثائق منظم بصريا (VSDS) مثل PDF. تقوم الأدوات المعالجة التقليدية ل VSDS تركز بشكل أساسي على تجزئة الكلمات وتحليل التخطيط الخشن، في حين أن تحليل الهيكل المنطقي المحلقات الدقيقة (مثل تحديد حدود الفقرة وهرميها) من VSDS هي غير متكسدة. تحقيقا لهذه الغاية، اقترحنا صياغة المهمة كتنبؤ بملميات الانتقال "بين شظايا الرسائل النصية التي تعرض الشظايا إلى شجرة، وتطوير نظام لتعلم الماكينات المستندة إلى ميزة يمبرص إشارات مرئية ونصية ودلية. يتم تخصيص نظامنا بسهولة إلى أنواع مختلفة من VSDS وكانت خطوط الأساس بشكل كبير في تحديد الهياكل المختلفة في VSDS. على سبيل المثال، حصل نظامنا على درجة الكشف عن حدود الفقرة 0.953 أفضل بكثير من أداة PDF-To-to-todly ذات درجة كبيرة مع درجة F1 من 0.739.
نحن نحقق في ما إذا كان هناك نموذج يمكن أن يتعلم اللغة الطبيعية مع الحد الأدنى من المدخلات اللغوية من خلال التفاعل.معالجة هذا السؤال، نقوم بتصميم وتنفيذ لعبة تعليمية تفاعلية تتعلم التمثيلات الدلالية المنطقية تكوين.تتيح لنا لعبتنا استكشاف فوائد الاستدل ال المنطقي لتعلم اللغة الطبيعية.يوضح التقييم أن النموذج يمكن أن يضيق بدقة التمثيلات المنطقية المحتملة للكلمات على مدار اللعبة، مما يشير إلى أن نموذجنا قادر على تعلم تعيينات معجمية من الصفر بنجاح.
تصبح التلخصات متعددة الوسائط ذات أهمية متزايدة لأنها هي أساس الإجابة على السؤال والبحث على شبكة الإنترنت والعديد من المهام الأخرى المصب الأخرى.ومع ذلك، فإن موادها التعليمية تفتقر إلى منظمة شاملة من خلال دمج الموارد من الطرائق المختلفة، مما يتخلف عن ا لتقدم المحرز البحثي في هذا المجال.في هذه الدراسة، نطلق عن مجموعة بيانات متعددة الوسائط واسعة النطاق تجمع الوثائق والملخصات والصور والتسميات التوضيحية ومقاطع الفيديو والصوتيات والمنصات واللقب باللغة الإنجليزية من CNN و Daily Mail.لدينا أفضل المعرفة لدينا، هذه هي المجموعة الأولى التي تدعم جميع الطرائق وتشمل ما يقرب من جميع أنواع المواد المتاحة في هذا المجتمع.بالإضافة إلى ذلك، نحن ابتكر نموذج خط الأساس استنادا إلى مجموعة البيانات الجديدة، والذي يستخدم آلية تقفيز تقترح حديثا على أساس النصوص.تتحقق النتائج التجريبية دور المساعدة الهامة للمعلومات الخارجية لتلخيص متعدد الوسائط.
نقوم بتطبيق إضفاء الطابع الرسمي على الاستدلال الطبيعي الذي يشبه المنطق الطبيعي باستخدام أشكال منطقية غير مستقرة غير مستقرة (ULFS) بواسطة كيم وآخرون.(2020).نوضح قدرة هذا النظام على التعامل مع مجموعة متنوعة من الظواهر الدلالية الصعبة باستخدام DataSet F racas (Cooper et al.، 1996).تعطي هذه النتائج أدلة تجريبية للمطالبات السابقة أن ULF هو تمثيل مناسب للتوسط في استنتاجات من المنطق الطبيعي.
مراجعة العقود هي إجراء يستغرق وقتا طويلا يتحمل نفقات كبيرة للشركات وعدم المساواة الاجتماعية لأولئك الذين لا يستطيعون تحمل تكاليفها. في هذا العمل، نقترح استنتاج اللغة الطبيعي على مستوى المستند (NLI) للعقود "، وهو جديد، تطبيق عالمي حقيقي من NLI يتناول مثل هذه المشاكل. في هذه المهمة، يتم إعطاء نظام مجموعة من الفرضيات (مثل بعض الالتزامات بالاتفاق قد ينجو من الإنهاء. ") وعقد، ويطلب منها تصنيف ما إذا كانت كل فرضية تنطوي عليها" "، تناقض مع" لم يذكره "(محايد) العقد وكذلك تحديد الأدلة" للقرار على أنه يمتد في العقد. شرحنا وإطلاق سراح أكبر جوربوس حتى الآن يتكون من 607 عقدا مشروحا. نوضح بعد ذلك أن النماذج الحالية تفشل بشكل سيء في مهمتنا وإدخال خط أساس قوي، والتي (أ) تحديد دليل الأدلة كتصنيف متعدد العلامات على المدافع بدلا من محاولة التنبؤ بطارية الرموز البديلة والنهاية، و (ب) توظف تجزئة السياق أكثر تطورا للتعامل مع وثائق طويلة. نوضح أيضا أن الخصائص اللغوية للعقود، مثل النفي من خلال الاستثناءات، تساهم في صعوبة هذه المهمة وأن هناك مجالا كبيرا للتحسين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا