ترغب بنشر مسار تعليمي؟ اضغط هنا

كفاءة البيانات مصممة لغة ملثمين للرؤية واللغة

Data Efficient Masked Language Modeling for Vision and Language

455   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

النمذجة اللغوية المعقدة (MLM) هي واحدة من المهام الفرعية الرئيسية في محاكاة لغة الرؤية. في الإعداد عبر الوسائط، يتم ملثمين الرموز في الجملة بشكل عشوائي، والنموذج يتوقع أن تكون الرموز الممكنة التي أعطتها الصورة والنص. في هذه الورقة، نلاحظ العديد من عيوب MLM الرئيسية في هذا الإعداد. أولا، حيث تميل التسميات التوضيحية إلى أن تكون قصيرة، في ثلث الجمل لا يتم أخذ عينات من الجمل. ثانيا، غالبية الرموز الملثمين هي التوقف عن الكلمات وعلامات الترقيم، مما يؤدي إلى نقص في الاستخدام للصورة. إننا نحقق في مجموعة من استراتيجيات التقنيع البديلة المحددة لإعداد العرض المتعلق الذي يتناول هذه أوجه القصور، تهدف إلى توصيف أفضل من النص والصورة في التمثيل المستفاد. عند تدريب ما قبل التدريب على نموذج LXMERT، تتحسن استراتيجياتنا البديلة الخاصة بنا باستمرار عبر استراتيجية التقنيع الأصلية على ثلاثة مهام أسفل المصب، خاصة في إعدادات الموارد المنخفضة. علاوة على ذلك، يتفوق نهجنا قبل التدريب بشكل كبير على نموذج الأساس في مهمة التحقيق الفورية المصممة لاستنباط كائنات الصورة. تشير هذه النتائج وتحليلنا إلى أن طريقتنا تسمح باستفادة أفضل من بيانات التدريب.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

هناك حدود مثيرة في فهم اللغة الطبيعية (NLU) وتوليد (NLG) يدعو (NLG) نماذج لغة (Vision-and) التي يمكن أن تصل إلى إمكانية الوصول إلى مستودعات المعرفة المنظم الخارجية بكفاءة. ومع ذلك، فإن العديد من قواعد المعرفة الموجودة تغطي فقط المجالات المحدودة، أو ت عاني من بيانات صاخبة، والأهم من ذلك كلها يصعب دمجها عادة في خطوط أنابيب اللغة العصبية. لملء هذه الفجوة، ونحن نطلق عرض المرئيات: رسم بياني لمعرفة عالية الجودة (كجم) والتي تشمل العقد مع المواد المتعددة اللغات والصور التوضيحية المتعددة، والعلاقات ذات الصلة بصريا. ونحن نطلق أيضا نموذج استرجاع متعدد الوسائط العصبي يمكنه استخدام الصور أو الجمل كمدخلات واسترداد الكيانات في كجم. يمكن دمج نموذج استرجاع متعدد الوسائط هذا في أي خط أنابيب نموذج (الشبكة العصبية). نحن نشجع مجتمع البحث على استخدام المرئيات لتعزيز البيانات و / أو كمصدر للتأريض، من بين الاستخدامات الأخرى الممكنة. تتميز المرئيات وكذلك نماذج استرجاع متعددة الوسائط متاحة للجمهور ويمكن تنزيلها في عنوان URL هذا: https://github.com/acercalixto/visualsem.
في مهمة التنقل في الرؤية واللغة (VLN)، يقوم وكيل مجسد على بيئة ثلاثية الأبعاد، بعد تعليمات اللغة الطبيعية.التحدي في هذه المهمة هو كيفية التعامل مع سيناريوهات المسار حيث يوضح الوكيل من المسار المرجعي.يشرف العمل السابق على الوكيل بالإجراءات القائمة على أقصر مسار من موقع الوكيل إلى الهدف، ولكن هذا الإشراف الموجه نحو الأهداف غالبا ما لا يتماشى مع التعليمات.علاوة على ذلك، فإن مقاييس التقييم التي تستخدمها العمل المسبق لا تقيس مقدار التعليمات اللغوية التي يستطيع الوكيل أن يتبعها.في هذا العمل، نقترح مخطط إشراف بسيط وفعال من اللغات، ومقياس جديد يقيس عدد التعليمات الفرعية التي أكملها الوكيل أثناء الملاحة.
يعد الكشف عن الموقف على Twitter تحديا بشكل خاص بسبب الطول القصير لكل سقسقة، والتعايش المستمر لمصطلحات جديدة وعلاج التصنيف، وانحراف هيكل الجملة من النثر القياسي.تم عرض نماذج لغة ذات ضبطها باستخدام بيانات داخل المجال على نطاق واسع لتكون الحالة الجديدة للعديد من مهام NLP، بما في ذلك اكتشاف الموقف.في هذه الورقة، نقترح طريقة رواية متناصة قائمة بذاتها تعزز نموذج اللغة الملثم للكشف عن الموقف.بدلا من إخفاء الرمز المميز العشوائي، نقترح استخدام نسبة مرجحة للأحكام المرجحة لتحديد الكلمات ذات الموقف العالي ومن ثم نموذج آلية الاهتمام التي تركز على هذه الكلمات.نظهر أن نهجنا المقترح يتفوق على حالة الفنية من أجل الكشف عن البيانات حول بيانات تويتر حول الانتخابات الرئاسية الأمريكية 2020.
نقترح مهمة توليد التعليقات تلقائيا عن السباقات في لعبة سباق السيارات، من الرؤية والبيانات العددية والنصية المنظمة. توفر التعليقات معلومات لدعم المتفرجين في فهم الأحداث في السباقات. تحتاج نماذج توليد التعليق إلى تفسير وضع السباق وإنشاء المحتوى الصحيح في اللحظة المناسبة. نحن نقسم المهمة إلى قسمين فرعيين: تحديد توقيت الكلام وتوليد الكلام. نظرا لأن مجموعات البيانات الحالية لا تملك محاذاة بيانات في طرائق متعددة، لم يتم استكشاف هذا الإعداد بعمق. في هذه الدراسة، نقدم مجموعة بيانات جديدة واسعة النطاق تحتوي على بيانات الفيديو المحاذاة، والبيانات العددية المنظمة، والتعليقات المسجلة التي تتكون من 129226 كلمة في 1389 سباقا في لعبة. يكشف تحليلنا أن خصائص التعليقات تتغير مع مرور الوقت أو من وجهات النظر. تشير تجاربنا في المساحات الفرعية إلى أنه لا يزال يمثل تحديا لتشميز رؤية أحدث لرؤية معلومات مفيدة من مقاطع الفيديو لتوليد تعليقات دقيقة. نجعل مجموعة بيانات وتنفيذ خط الأساس متاحة للجمهور لمزيد من البحث.
غالبا ما يتحلل ترجمة لغة الإشارة (SLT) في التعرف على الفيديو إلى اللمعان والترجمة النصية إلى النص، حيث يكون اللمعان سلسلة من الكلمات اللغوية الموضحة باللغة المنطوقة بالترتيب الذي يتم فيه توقيعه.نحن نركز هنا على الترجمة اللامع إلى النص، والتي نعلمها ك مشكلة ترجمة آلية منخفضة الموارد (NMT).ومع ذلك، على عكس المورد المنخفض التقليدي NMT، تختلف الترجمة من اللمعان إلى النص لأن أزواج النص اللامع في كثير من الأحيان تحتوي على تداخل معجمي أعلى وانخفاض التداخل النحوي أقل من أزواج اللغات المنطوقة.نستفصل هذا التداخل المعجمي والتعامل مع الاختلاف النحوي عن طريق اقتراح اثنين من الاستدلال المستندة إلى القواعد التي تولد أزواج نصية متوازية من النصوص الزائفة من نص اللغة المنطوقة غير المنطوقة.من خلال التدريب المسبق على هذه البيانات الاصطناعية، نحسن الترجمة من لغة الإشارة الأمريكية (ASL) إلى لغة الإشارة الإنجليزية والألمانية إلى الألمانية بنسبة تصل إلى 3.14 و 2.20 بلو، على التوالي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا