ترغب بنشر مسار تعليمي؟ اضغط هنا

نقدم VideoClip، وهو نهج مقاوم للتناقض في تدريب نموذج موحد مسبقا لفهم الفيديو والنصية الصفرية، دون استخدام أي ملصقات على مهام المصب.يقوم VideoClep بتدريب محول الفيديو والنص عن طريق تناقض أزواج فيديو إيجابية مؤقتة متداخلة مع السلبيات الصعبة من أقرب است رجاع جار.تجاربنا على سلسلة متنوعة من المهام المصب، بما في ذلك استرجاع الفيديو على مستوى التسلسل، والتعريب الخاص بمستوى عمل Videoqa ومستوى الرمز المميز، وتجزئة العمل تكشف عن أداء حالة من بين الفن، وتجاوز العمل السابق، وفي بعض الحالات يفوقنالنهج الخاضعة للإشراف.يتوفر الكود في https://github.com/pytorch/fairseq/examples/mmpt.
تسأل الأسئلة الحديثة الإجابة على معايير القراءة والآلة في كثير من الأحيان تقلل من المهمة إلى واحدة من 12 يمتد في مقطع نص معين يجيب على السؤال المحدد. عادة ما تكون هذه النظم غير مطلوبة لفهم النص على مستوى أعمق يسمح بالتفكير الأكثر تعقيدا في المعلومات الواردة. نقدم مجموعة بيانات جديدة تسمى BIQUAD التي تتطلب فهم أعمق من أجل الإجابة على الأسئلة بطريقة استخراجية وملىذة. تتكون DataSet من 4،190 نص مغلقا ومما مجموعه 99،149 زوجا للإجابة على الأسئلة. تقوم النصوص بتوليد تقارير مباراة كرة القدم التي تنشط الأحداث الرئيسية لكل مباراة. تتم مصحوبة جميع النصوص برامج Datalog منظمة تمثل نموذجا (منطقي) من معلوماتها. نظهر أن طرازات ضمان الجودة لا تعمل بشكل جيد على سياقات النموذج الطويلة الصعبة ومتطلبات التفكير التي تطرحتها مجموعة البيانات. على وجه الخصوص، تحقق النماذج القائمة على المحولات الموجودة على النتائج F1 من 39.0 فقط. نوضح كيف تحاكي مجموعات البيانات الاصطناعية هذه المعرفة المهيكلة بالنص الطبيعي وتأمل نموذج المساعدة عند الاقتراب من فهم النص المعقد.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا