ترغب بنشر مسار تعليمي؟ اضغط هنا

سؤال الفيديو يجيب مع عبارات الأدوار الدلالية

Video Question Answering with Phrases via Semantic Roles

377   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقتصر مقاييس تقييم سؤال الفيديو (VIDQA) على إجابة كلمة واحدة أو اختيار عبارة من مجموعة ثابتة من العبارات.هذه المقاييس تحد من سيناريو تطبيق نماذج VIDQA.في هذا العمل، نستفيد الأدوار الدلالية المستمدة من أوصاف الفيديو لإخفاء عبارات معينة، لإدخال VIDQAP الذي يطرح VIDQA كامرأة تعبئة العبارة.لتمكين تقييم الجمل الإجابة، نحسب التحسين النسبي للإجابة المتوقعة مقارنة بسلسلة فارغة.لتقليل تأثير التحيز اللغوي في مجموعات بيانات VIDQA، نسترجع شريط فيديو له إجابة مختلفة لنفس السؤال.لتسهيل البحث، نقوم ببناء AttactNet-SRL-QA و Charads-SRL-QA ومقاييسهم عن طريق تمديد ثلاث نماذج لغة رؤية.نحن نقوم بإجراء تحليل مكثف ودراسات ablative لتوجيه العمل في المستقبل.الرمز والبيانات عامة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحقق نماذج الرد على الأسئلة النصية الحالية (QA) أداء قوي على مجموعات اختبار داخل المجال، ولكن في كثير من الأحيان القيام بذلك عن طريق تركيب أنماط المستوى السطحي، لذلك فشلوا في التعميم لإعدادات خارج التوزيع. لجعل نظام ضمان الجودة أكثر قوة ومفهومة، نقوم بالنماذج النموذجية في الإجابة كمشكلة محاذاة. نحن نحلل كل من السؤال والسياق إلى وحدات أصغر بناء على التمثيلات الدلالية خارج الرف (هنا، الأدوار الدلالية)، ومحاذاة السؤال إلى مجموعة فرعية من السياق من أجل العثور على الجواب. نقوم بصياغة نموذجنا كإدارة منظمة تنظم، مع درجات المحاذاة المحسوبة عبر Bert، ويمكننا تدريب نهاية إلى نهاية على الرغم من استخدام شعاع البحث عن الاستدلال التقريبي. يتيح لنا استخدامنا للتويات الصريحة استكشاف مجموعة من القيود التي يمكننا حظرها أنواع معينة من السلوك النموذجي السيئ الناشئ في إعدادات المجال عبر. علاوة على ذلك، من خلال التحقيق في الاختلافات في الدرجات عبر الإجابات المحتملة المختلفة، يمكننا أن نسعى لفهم جوانب معينة من المدخلات التي تقدم النموذج لاختيار الإجابة دون الاعتماد على تقنيات تفسير ما بعد المخصص. نحن ندرب نموذجنا على فرقة V1.1 واختبرها على العديد من مجموعات بيانات الخصومة والخروج. تشير النتائج إلى أن طرازنا أكثر قوة من طراز Bert QA القياسي، والقيود المستمدة من درجات المحاذاة تسمح لنا بالتنازل بفعالية من التغطية والدقة بشكل فعال.
تقترح هذه الورقة معيارا للإجابة على الأسئلة (QA) للمنطق المكاني للنص اللغوي الطبيعي الذي يحتوي على ظواهر مكانية واقعية غير مغطاة بعمل مسبق وهو أمر صعب طرازات اللغة الحديثة (LM).نقترح طريقة الإشراف البعيدة لتحسين هذه المهمة.على وجه التحديد، نقوم بتصمي م قواعد النحو والتفكير لإنشاء وصفا مكاني تلقائيا للمشاهد البصرية وأزواج ضمان الجودة المقابلة.تظهر التجارب أن محاور LMS بشكل أكبر على هذه البيانات التي تم إنشاؤها تلقائيا تعمل بشكل كبير على تحسين قدرة LMS على الفهم المكاني، والذي يساعد بدوره في حل مجموعات بيانات خارجية، و Babi، و Boolq.نأمل أن يعزز هذا العمل التحقيقات في نماذج أكثر تطورا للمناسبات المكانية على النص.
معظم أساليب الإجابة على الأسئلة القائمة على المعرفة الحالية (KBQA) تعلم أولا تعيين السؤال المحدد في رسم بياني للاستعلام، ثم قم بتحويل الرسم البياني إلى استعلام قابل للتنفيذ للعثور على الإجابة.عادة ما يتم توسيع الرسم البياني للاستعلام تدريجيا من كيان الموضوع بناء على نموذج تنبؤ التسلسل.في هذه الورقة، نقترح حل جديد للاستعلام عن جيل الرسم البياني الذي يعمل بالطريقة المعاكسة: نبدأ مع قاعدة المعرفة بأكملها وتقليصها تدريجيا إلى الرسم البياني للاستعلام المرغوب فيه.يعمل هذا النهج على تحسين كفاءة ودقة جيل الرسم البياني للاستعلام، خاصة بالنسبة لأسئلة قفز متعددة المعقدة.تظهر النتائج التجريبية أن طريقتنا تحقق أداء حديثة على مجموعة بيانات ComplexwebQuestion (CWQ).
يقارن تقييم نماذج الرد على الأسئلة التوضيحية حول التوقعات النموذجية. ومع ذلك، اعتبارا من اليوم، فإن هذه المقارنة تعتمد في الغالب معجمية، وبالتالي تفتقد الإجابات التي لا تحتوي على تداخل جذري ولكن لا تزال مماثلة متشابهة دلالة، وبالتالي علاج الإجابات ال صحيحة على أنها خاطئة. يعيق هذا التقليل من الأداء الحقيقي للنماذج قبول المستخدم في التطبيقات ويعقد مقارنة عادلة من النماذج المختلفة. لذلك، هناك حاجة إلى متري تقييم يعتمد على دلالات بدلا من تشابه السلسلة الخالصة. في هذه الورقة القصيرة، نقدم SAS، وهي متري مقرها في التشفير لتقدير تشابه الإجابة الدلالية، ومقارنتها بسبعة مقاييس موجودة. تحقيقا لهذه الغاية، نقوم بإنشاء مجموعة بيانات تقييم اللغة الإنجليزية ثلاثية وألمانية تحتوي على أزواج من الإجابات جنبا إلى جنب مع الحكم البشري من التشابه الدلالي، والتي نصرح لها جنبا إلى جنب مع تنفيذ Metric SAS والتجارب. نجد أن مقاييس التشابه الدلالي القائم على نماذج المحولات الأخيرة ترتبط بشكل أفضل بكثير مع الحكم البشري من مقاييس التشابه المعجمية التقليدية على مجموعات بياناتنا التي أنشأت حديثا ومجموعة بيانات واحدة من العمل ذي الصلة.
تقدم التطورات الحديثة في QA في الهواء الطلق إلى نماذج قوية تعتمد على استرجاع كثيف، ولكن ركزت فقط على استرداد المقاطع النصية.في هذا العمل، نتعامل مع QA المجال المفتوح على الجداول لأول مرة، وإظهار أنه يمكن تحسين الاسترجاع من خلال المسترد المصمم للتعامل مع سياق الجدول.نقدم إجراءات فعالة مسبقة التدريب لاستردادنا وتحسين جودة الاسترجاع مع السلبيات الصلبة الملغومة.نظرا لأن مجموعات البيانات ذات الصلة مفقودة، فإننا نستخلص مجموعة فرعية من الأسئلة الطبيعية (Kwiatkowski et al.، 2019) في مجموعة بيانات QA.نجد أن المسترد الخاص بنا يحسن نتائج الاسترجاع من 72.0 إلى 81.1 استدعاء @ 10 وتنفذ QA نهاية إلى نهاية من 33.8 إلى 37.7 مباراة دقيقة، عبر المسترد القائم على بيرت.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا