بحث متقدم مدعوم من الذكاء الصنعي

مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

LightNingDot: ما قبل التدريب تضمينات الفلالات المرئية لاسترجاع نص الصورة في الوقت الحقيقي

LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval

1357 0 0 0.0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جمعية اللغويات الحاسوبية ACL مقالة

تاريخ النشر 2021

مجال البحث الذكاء الاصناعي

والبحث باللغة English

تمت اﻹضافة من قبل Shamra Editor

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

دفعت التدريب المسبق متعدد الوسائط إلى التقدم الرائع في أبحاث الرؤية واللغة. هذه النماذج المدربة مسبقا واسعة النطاق، على الرغم من نجاحها، تعاني مصححة من سرعة الاستدلال البطيء بسبب التكلفة الحسابية الهائلة بشكل أساسي من الاهتمام عبر الوسائط في بنية محول. عند تطبيقها على تطبيقات الحياة الحقيقية، فإن طلب الكمون والحساب الحساب يردع بشدة الاستخدام العملي للنماذج المدربة مسبقا. في هذه الورقة، ندرس استرجاع نص الصورة (ITR)، سيناريو أكثر نضجا من تطبيق V + L، الذي تمت دراسته على نطاق واسع حتى قبل ظهور النماذج المدربة مسبقا مؤخرا. نقترح نهج بسيط ولكنه فعال للغاية، الذي يسرع وقت الاستدلال في ITR بآلاف المرات، دون التضحية بالدقة. يزيل LightNingdot الاهتمام المتعلق بالعشرات المستهلكة للوقت من خلال استخراج فهارس ميزة ذات مخزيرة مؤقتا في وضع عدم الاتصال، وتوظيف مطابقة منتجات DOT الفورية عبر الإنترنت، والتي تسرع بشكل كبير عملية الاسترجاع بشكل كبير. في الواقع، يحقق LightNingDot أداء فائقا عبر معايير ITR الرئيسية مثل DataSets Flickr30k و Coco، مما يتفوق على النماذج الموجودة المدربة مسبقا تستهلك 1000 مرة من الساعات الحاسوبية باستخدام نفس الميزات.

المراجع المستخدمة

https://aclanthology.org/

قيم البحث

710 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

أصبحت نماذج لغة المحولات المدربة مسبقا (LM) لتشفيات تمثيل النص.البحث المسبق يلتزم LMS عميق لتشفير تسلسل النص مثل الجمل والمرورات في تمثيلات ناقلات كثيفة واحدة لمقارنة النص وانتبعدة فعالة.ومع ذلك، تتطلب التشفير الكثيفة الكثير من البيانات والتقنيات الم تطورة للتدريب بشكل فعال وتعاني في مواقف البيانات المنخفضة.تجد هذه الورقة سبب رئيسي هو أن هيكل العناية الداخلية القياسية ل LMS غير جاهزة للاستخدام للترميزات الكثيفة، والتي تحتاج إلى إجمالي معلومات نصية في التمثيل الكثيف.نقترح ما قبل القطار نحو التشفير الكثيف مع بنية محول رواية، مكثف، حيث ظروف التنبؤ LM على تمثيل كثيف.تعرض تجاربنا تظهر المكثف يحسن أكثر من LM القياسية من قبل هوامش كبيرة على مهام استرجاع النص المختلفة والتشابه.

pre-training architecture dense بنية التدريب قبل التدريب كثيف صناعة حمض الفوسفور

VideoClip: ما قبل التدريب المقاوم للتناقض لفهم نص الفيديو الصفر

974 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

نقدم VideoClip، وهو نهج مقاوم للتناقض في تدريب نموذج موحد مسبقا لفهم الفيديو والنصية الصفرية، دون استخدام أي ملصقات على مهام المصب.يقوم VideoClep بتدريب محول الفيديو والنص عن طريق تناقض أزواج فيديو إيجابية مؤقتة متداخلة مع السلبيات الصعبة من أقرب است رجاع جار.تجاربنا على سلسلة متنوعة من المهام المصب، بما في ذلك استرجاع الفيديو على مستوى التسلسل، والتعريب الخاص بمستوى عمل Videoqa ومستوى الرمز المميز، وتجزئة العمل تكشف عن أداء حالة من بين الفن، وتجاوز العمل السابق، وفي بعض الحالات يفوقنالنهج الخاضعة للإشراف.يتوفر الكود في https://github.com/pytorch/fairseq/examples/mmpt.

pre-training for zero-shot zero-shot video-text understanding contrastive pre-training ما قبل التدريب للرصاص الصفر صفر لقطة النص الفهم ما قبل التدريب على النقيض صناعة حمض الفوسفور المزيد..

ARAELECTRA: ما قبل التدريب على الرسائل النصية لفهم اللغة العربية

823 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

مكنت التقدم في تمثيل اللغة الإنجليزية مهمة أكثر كفاءة عينة من خلال التعلم بكفاءة ترميز يصنف بدائل الرمز المميز بدقة (Electra).أي، بدلا من تدريب نموذج لاستعادة الرموز الممثيلين، يقوم بتدريب نموذج تمييزي على التمييز بين الرموز الإدخال الحقيقية من الرمو ز التالفة التي تم استبدالها بشبكة مولدات.من ناحية أخرى، فإن نهج تمثيل اللغة باللغة العربية الحالية تعتمد فقط على الاحتجاج عن طريق نمذجة اللغة الملثم.في هذه الورقة، نقوم بتطوير نموذج تمثيل اللغة باللغة العربية، والتي نستها ARAELECTRA.يتم الاحترام من النموذج الخاص بنا باستخدام هدف الكشف عن الرمز المميز في النص العربي الكبير.نقوم بتقييم نموذجنا على مهام NLP العربية المتعددة، بما في ذلك فهم القراءة وتحليل المعرفات والاعتراف باسم الكيان المسمى ونعرض أن ARAELECTRA تتفوق على نماذج تمثيل اللغة العربية الحديثة الحالية، بالنظر إلى نفس البيانات المحددةحجم نموذج أصغر.

تقييم اللغة التقييم arabic language representation تمثيل اللغة العربية صناعة حمض الفوسفور

Layoutreader: ما قبل التدريب للنص والتخطيط لكشف عن ترتيب القراءة

774 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

كشف ترتيب القراءة هو حجر الزاوية لفهم المستندات البصرية (على سبيل المثال، الإيصالات والأشكال). لسوء الحظ، أي عمل موجود استفاد من نماذج التعلم العميقة المتقدمة لأنها شاقة للغاية للتعليق على مجموعة بيانات كبيرة بما فيه الكفاية. نلاحظ أن ترتيب القراءة م ن مستندات Word مضمن في بيانات تعريف XML الخاصة بهم؛ وفي الوقت نفسه، من السهل تحويل مستندات Word إلى ملفات PDF أو الصور. لذلك، في طريقة تلقائية، نقوم ببناء Redlybank، مجموعة بيانات معيار تحتوي على ترتيب القراءة والنصوص والتخطيط لمعلومات 500000 صورة وثيقة تغطي مجموعة واسعة من أنواع المستندات. هذه مجموعة بيانات كبيرة على نطاق واسع يطلق تشغيل قوة الشبكات العصبية العميقة لكشف عن الطلب. على وجه التحديد، يلتقط LayoTreader المقترح معلومات النص والتخطيط لتوقعات ترتيب القراءة باستخدام نموذج SEQ2SEQ. يؤدي ذلك بشكل مثالي تقريبا في اكتشاف أمر القراءة ويحسن بشكل كبير من محركات الحرية الخارجية المفتوحة والمصادر الحرارية في ترتيب خطوط نصية في نتائجها في تجاربنا. يتم توفير مجموعة البيانات والنماذج علنا في https://aka.ms/layouoTreader.

reading order detection reading order order detection قراءة طلب القراءة قرار القراءة اكتشاف الطلب صناعة حمض الفوسفور المزيد..

ما قبل التدريب الموحد لفهم البرنامج وتوليده

700 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تلخيص التعليمات البرمجية والجيل التمدد التحويل بين لغة البرمجة (PL) واللغة الطبيعية (NL)، بينما تتفافر ترجمة التعليمات البرمجية ترحيل الرمز القديم من واحد إلى آخر. تقدم هذه الورقة Plbart، نموذج تسلسل إلى تسلسل قادر على أداء مجموعة واسعة من فهم البرام ج واللغة ومهام الجيل. يتم تدريب PLBART مسبقا على مجموعة واسعة من وظائف Java و Python والنص NL المرتبط NL عبر Denoising AutoNCoding. تجارب في تلخيص التعليمات البرمجية في اللغة الإنجليزية وتوليد التعليمات البرمجية، وترجمة التعليمات البرمجية في سبع لغات البرمجة تظهر أن PLBART تفوق النماذج أو من المنافسين من النماذج الحديثة. علاوة على ذلك، فإن التجارب المعنية بالمهام التمييزية، على سبيل المثال، إصلاح البرامج، وكشف استنساخ، وكشف الشفرة الضعيفة، إظهار فعالية PLBART في فهم البرنامج. علاوة على ذلك، يكشف التحليل أن Plbart يتعلم بناء جملة البرنامج، والأسلوب (على سبيل المثال، اتفاقية تسمية المعرف)، التدفق المنطقي (على سبيل المثال، إذا كانت كتلة داخل كتلة أخرى تعادل أخرى إذا كانت الكتلة) ذات أهمية حاسمة في البرامج، وبالتالي تتفوق حتى مع التعليقات التوضيحية المحدودة وبعد

unified pre-training plbart ما قبل التدريب الموحد plbart. صناعة حمض الفوسفور

الأسئلة المقترحة

شرح تقنية التعرف على الصوت Voice Recognition

2112 - 0 - - تم طرحه بمساحة (الذكاء الاصناعي)

التعرف على الصوت التعرف على الكلام التعرف على الكلام التلقائي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

جامعة حلب

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

LightNingDot: ما قبل التدريب تضمينات الفلالات المرئية لاسترجاع نص الصورة في الوقت الحقيقي

LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة