ترغب بنشر مسار تعليمي؟ اضغط هنا

VideoClip: ما قبل التدريب المقاوم للتناقض لفهم نص الفيديو الصفر

VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding

424   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم VideoClip، وهو نهج مقاوم للتناقض في تدريب نموذج موحد مسبقا لفهم الفيديو والنصية الصفرية، دون استخدام أي ملصقات على مهام المصب.يقوم VideoClep بتدريب محول الفيديو والنص عن طريق تناقض أزواج فيديو إيجابية مؤقتة متداخلة مع السلبيات الصعبة من أقرب استرجاع جار.تجاربنا على سلسلة متنوعة من المهام المصب، بما في ذلك استرجاع الفيديو على مستوى التسلسل، والتعريب الخاص بمستوى عمل Videoqa ومستوى الرمز المميز، وتجزئة العمل تكشف عن أداء حالة من بين الفن، وتجاوز العمل السابق، وفي بعض الحالات يفوقنالنهج الخاضعة للإشراف.يتوفر الكود في https://github.com/pytorch/fairseq/examples/mmpt.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مكنت التقدم في تمثيل اللغة الإنجليزية مهمة أكثر كفاءة عينة من خلال التعلم بكفاءة ترميز يصنف بدائل الرمز المميز بدقة (Electra).أي، بدلا من تدريب نموذج لاستعادة الرموز الممثيلين، يقوم بتدريب نموذج تمييزي على التمييز بين الرموز الإدخال الحقيقية من الرمو ز التالفة التي تم استبدالها بشبكة مولدات.من ناحية أخرى، فإن نهج تمثيل اللغة باللغة العربية الحالية تعتمد فقط على الاحتجاج عن طريق نمذجة اللغة الملثم.في هذه الورقة، نقوم بتطوير نموذج تمثيل اللغة باللغة العربية، والتي نستها ARAELECTRA.يتم الاحترام من النموذج الخاص بنا باستخدام هدف الكشف عن الرمز المميز في النص العربي الكبير.نقوم بتقييم نموذجنا على مهام NLP العربية المتعددة، بما في ذلك فهم القراءة وتحليل المعرفات والاعتراف باسم الكيان المسمى ونعرض أن ARAELECTRA تتفوق على نماذج تمثيل اللغة العربية الحديثة الحالية، بالنظر إلى نفس البيانات المحددةحجم نموذج أصغر.
تلخيص التعليمات البرمجية والجيل التمدد التحويل بين لغة البرمجة (PL) واللغة الطبيعية (NL)، بينما تتفافر ترجمة التعليمات البرمجية ترحيل الرمز القديم من واحد إلى آخر. تقدم هذه الورقة Plbart، نموذج تسلسل إلى تسلسل قادر على أداء مجموعة واسعة من فهم البرام ج واللغة ومهام الجيل. يتم تدريب PLBART مسبقا على مجموعة واسعة من وظائف Java و Python والنص NL المرتبط NL عبر Denoising AutoNCoding. تجارب في تلخيص التعليمات البرمجية في اللغة الإنجليزية وتوليد التعليمات البرمجية، وترجمة التعليمات البرمجية في سبع لغات البرمجة تظهر أن PLBART تفوق النماذج أو من المنافسين من النماذج الحديثة. علاوة على ذلك، فإن التجارب المعنية بالمهام التمييزية، على سبيل المثال، إصلاح البرامج، وكشف استنساخ، وكشف الشفرة الضعيفة، إظهار فعالية PLBART في فهم البرنامج. علاوة على ذلك، يكشف التحليل أن Plbart يتعلم بناء جملة البرنامج، والأسلوب (على سبيل المثال، اتفاقية تسمية المعرف)، التدفق المنطقي (على سبيل المثال، إذا كانت كتلة داخل كتلة أخرى تعادل أخرى إذا كانت الكتلة) ذات أهمية حاسمة في البرامج، وبالتالي تتفوق حتى مع التعليقات التوضيحية المحدودة وبعد
حققت نماذج متعددة اللغات المدربة مسبقا أداء ملحوظا على تعلم التحويل عبر اللغات.تم تدريب بعض النماذج متعددة اللغات مثل Mbert، مدربة مسبقا على Corpora غير المسبق، وبالتالي لا يمكن تضمين تضمينات لغات مختلفة في النماذج بشكل جيد للغاية.في هذه الورقة، نهدف إلى تحسين أداء نقل اللغات المتبادل الصفر عن طريق اقتراح مهمة تدريبية مسبقا تسمى نموذج محاذاة Word-Exchange (Weal)، والذي يستخدم معلومات المحاذاة الإحصائية كمعرفة مسبقة لتوجيه الكلمة عبر اللغاتتنبؤ.نحن نقيم نموذجنا في مهمة مهام الفهم لقراءة الجهاز متعدد اللغات ومهمة واجهة اللغة الطبيعية XNLI.تظهر النتائج أن Weam يمكن أن يحسن بشكل كبير من الأداء الصفر بالرصاص.
دفعت التدريب المسبق متعدد الوسائط إلى التقدم الرائع في أبحاث الرؤية واللغة. هذه النماذج المدربة مسبقا واسعة النطاق، على الرغم من نجاحها، تعاني مصححة من سرعة الاستدلال البطيء بسبب التكلفة الحسابية الهائلة بشكل أساسي من الاهتمام عبر الوسائط في بنية محو ل. عند تطبيقها على تطبيقات الحياة الحقيقية، فإن طلب الكمون والحساب الحساب يردع بشدة الاستخدام العملي للنماذج المدربة مسبقا. في هذه الورقة، ندرس استرجاع نص الصورة (ITR)، سيناريو أكثر نضجا من تطبيق V + L، الذي تمت دراسته على نطاق واسع حتى قبل ظهور النماذج المدربة مسبقا مؤخرا. نقترح نهج بسيط ولكنه فعال للغاية، الذي يسرع وقت الاستدلال في ITR بآلاف المرات، دون التضحية بالدقة. يزيل LightNingdot الاهتمام المتعلق بالعشرات المستهلكة للوقت من خلال استخراج فهارس ميزة ذات مخزيرة مؤقتا في وضع عدم الاتصال، وتوظيف مطابقة منتجات DOT الفورية عبر الإنترنت، والتي تسرع بشكل كبير عملية الاسترجاع بشكل كبير. في الواقع، يحقق LightNingDot أداء فائقا عبر معايير ITR الرئيسية مثل DataSets Flickr30k و Coco، مما يتفوق على النماذج الموجودة المدربة مسبقا تستهلك 1000 مرة من الساعات الحاسوبية باستخدام نفس الميزات.
تسهل المعلومات اللغوية الخشنة، مثل الكيانات أو العبارات المسماة، التعلم التمثيل بشكل كاف في التدريب المسبق. تعمل السابقة بشكل أساسي على توسيع هدف نمذجة لغة بيرت الملثمين (MLM) من إخفاء الرموز الفردية إلى تسلسلات متجاورة من الرموز N. نقول أن هذه الطري قة اخفاء هذه المتخلل تهمل طرازات التبعيات داخل الإتصال والمعلومات المشتركة بين المعلومات اللغوية المحبوبة الخشنة. كديل، نقترح Ernie-Gram، وهي طريقة إخفاء N-Gram بشكل صريح لتعزيز دمج المعلومات المحبوسة الخشنة في ما قبل التدريب. في Ernie-Gram، N-Grams ملثمين وتوقعت مباشرة باستخدام هويات N-Gram واضحة بدلا من تسلسلات متجاورة من الرموز N. علاوة على ذلك، توظف Ernie-Gram نموذج مولد للعينة من هويات N-Gram المعقولة كقنعة اختيارية N-Gram وتوقعها في كل من الأخلاق الخشنة والحبوب الدقيقة لتمكين تنبؤات N-Gram الشاملة ونمذجة العلاقة. نحن نسترجع تدريبات Ernie-Gram على النصوص باللغة الإنجليزية والصينية ونغمة الجميلة في 19 مهام المصب. تظهر النتائج التجريبية أن Ernie-Gram يتفوق على نماذج مسبقة التدريب السابقة مثل XLNet و Roberta بهامش كبير، وتحقق نتائج قابلة للمقارنة مع الطرق الحديثة. تم إصدار رموز المصدر والنماذج المدربة مسبقا في https://github.com/paddlepaddle/ernie.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا