ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين تضمين الرؤية واللغة المدربة مسبقا لعبارة التأريض

Improving Pre-trained Vision-and-Language Embeddings for Phrase Grounding

338   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف العبارة الأساسية إلى تعيين العبارات النصية إلى مناطق الصور المرتبطة بها، والتي يمكن أن تكون شرطا أساسيا لسبب متعدد الوسائط ويمكن أن تستفيد المهام التي تتطلب تحديد الكائنات القائمة على اللغة. مع تحقيق نماذج للرؤية واللغة المدربة مسبقا أداء مثير للإعجاب عبر المهام، لا يزال غير واضح إذا كان بإمكاننا الاستفادة مباشرة من تضمينهم المستفادين لعبارة التأريض دون ضبط جيد. تحقيقا لهذه الغاية، نقترح طريقة لاستخراج أزواج من منطقة العبارات المتطابقة من تضمين الرؤية واللغة المدربة مسبقا واقتراح أربع أهداف صعبة لتحسين عبارة التأريض النموذجية باستخدام بيانات التسمية التوضيحية للصور دون أي إشارات تأريض خاضعة للإشراف. توضح التجارب في مجموعات بيانات تمثيليتين فعالية أهدافنا، مما يتفوق على نماذج أساسية في كل من إعدادات التأريض الإشراف والإشراف عليها. بالإضافة إلى ذلك، نقوم بتقييم embedings المحاذاة على العديد من المهام الأخرى المصب وإظهار أنه يمكننا تحقيق عبارات أفضل دون التضحية بعموة التمثيل.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم انتقاد التمثيل اللغوي المستمدة من النص وحده بسبب نقص الأساس، أي ربط الكلمات مع معانيها في العالم المادي.عرضت نماذج الرؤية واللغة (VL)، التي تم تدريبها بالاشتراك على نص بيانات النص والصورة أو الفيديو كرددا على مثل هذه الانتقادات.ومع ذلك، في حين أظه رت مؤشر الأفلام VL النجاح على مهام متعددة الوسائط مثل الإجابة على السؤال المرئي، فإنه لم يعرف بعد كيف المقارنة بين التمثيلات اللغوية الداخلية أنفسهم بنظرائهم النصي فقط.تقارن هذه الورقة التمثيلات الدلالية المستفادة عبر VL مقابل النص لا يمكن أن تحذر فقط عن نماذج VL الأخيرة باستخدام مجموعة من التحليلات (التجميع والتحقيق والأداء في مهمة الإجابة على سؤال للبلد) في وضع لغة فقط.نجد أن النماذج متعددة الوسائط تفشل في الظهور بشكل كبير من المتغيرات النصية فقط، مما يشير إلى أن العمل المستقبلي مطلوب إذا تم اتباع الاحتجاج متعدد الوسائط بمثابة متابعته كوسيلة لتحسين NLP بشكل عام.
حققت نماذج اللغة المدربة مسبقا نجاحا كبيرا على مجموعة واسعة من مهام NLP. ومع ذلك، فإن التمثيلات السياقية من النماذج المدربة مسبقا تحتوي على معلومات دلالية ومتنامية متشابكة، وبالتالي لا يمكن استخدامها مباشرة لاستخلاص مدينات جملة دلالية مفيدة لبعض المه ام. تقدم أزواج إعادة صياغة طريقة فعالة لتعلم التمييز بين الدلالات وبناء الجملة، حيث أنهم يشاركون بشكل طبيعي دلالات وغالبا ما يختلف في بناء جملة. في هذا العمل، نقدم Parabart، وهي جملة دلالية تضمين نموذج يتعلم تكديح دلالات ودليل بناء الجملة في مذكرات الجملة التي تم الحصول عليها بواسطة نماذج اللغة المدربة مسبقا. يتم تدريب PARABART على إجراء إعادة صياغة موجهة إلى بناء الجملة، استنادا إلى جملة مصدر تشترك في الدلالات مع إعادة صياغة الهدف، وشجرة تحليل تحدد بناء الجملة المستهدف. وبهذه الطريقة، يتعلم بارابارت تعليم التمثيل الدلالي والمنظمات النحوية من مدخلاتها مع تشفير منفصلة. تبين التجارب باللغة الإنجليزية أن بارابارت تتفوق على الأحكام التي تضم نماذج تضمينها على مهام التشابه الدلالي غير المعدل. بالإضافة إلى ذلك، نظير على أن نهجنا يمكن أن يؤدي إلى إزالة المعلومات النحوية بشكل فعال من تضمين الجملة الدلالية، مما يؤدي إلى متانة أفضل ضد الاختلاف النحوي على المهام الدلالية المصب.
يتعين على نماذج اللغة المدربة مسبقا (PRLM) لإدارة وحدات الإدخال بعناية عند التدريب على نص كبير جدا مع مفردات تتكون من ملايين الكلمات. أظهرت الأعمال السابقة أن دمج معلومات المسيح على مستوى الأمان بشأن الكلمات المتتالية في التدريب المسبق يمكن أن تحسن أ داء PRLMS. ومع ذلك، بالنظر إلى أن أدلة المسكنات المستفادة مقدمة وإثباتها في التدريب المسبق، فإن الطرق السابقة تستغرق وقتا طويلا ونقص المرونة. لتخفيف الإزعاج، تقدم هذه الورقة طريقة رواية تمتد دقيقة لضبط PRLMS، مما يسهل إعداد SPES يتم تحديده على تكيفه بواسطة مهام معينة من المصب أثناء مرحلة الضبط الجميلة. بالتفصيل، سيتم تجزئة أي جمل تتم معالجتها من قبل PRLM في تمديدات متعددة وفقا لقاموس ما قبل العينات. ثم سيتم إرسال معلومات التجزئة من خلال وحدة CNN الهرمية مع مخرجات التمثيل من PRLM وتولد في نهاية المطاف تمثيلا محسن. تشير التجارب على معيار الغراء إلى أن طريقة ضبط الدقيقة المقترحة تعزز بشكل كبير PRLM، وفي الوقت نفسه، تقدم المزيد من المرونة بطريقة فعالة.
هل يمكن لصق Bert مدربة مسبقا بلغة واحدة و GPT لآخر لترجمة النصوص؟يؤدي التدريب للإشراف على الذات باستخدام بيانات أحادية الأونلينغ فقط إلى نجاح نماذج اللغة المدربة مسبقا (ملثمين) في العديد من مهام NLP.ومع ذلك، فإن ربط بيرت مباشرة كتشفير و GPT حيث أن وح دة فك ترميز يمكن أن يكون تحديا في الترجمة الآلية، وفصول النماذج التي تشبه gpt إلى مكون متقاطع مكون مطلوب في فك تشفير SEQ2SEQ.في هذه الورقة، نقترح Graformer إلى الكسب غير المشروع نماذج اللغة المدربة مسبقا (ملثمين) للترجمة الآلية.مع بيانات أحادية الأبعاد لبيانات التدريب المسبق والتوازي لتدريب تطعيم، نستفيد إلى حد ما من استخدام كلا النوعين من البيانات.تظهر التجارب في 60 اتجاهات أن طريقتنا تحقق متوسط التحسينات من 5.8 بلو في X2EN و 2.9 بلو في اتجاهات EN2X مقارنة مع المحول متعدد اللغات من نفس الحجم.
نماذج اللغة المحددة مسبقا (PTLMS) تسفر عن الأداء الحديث في العديد من مهام معالجة اللغة الطبيعية، بما في ذلك بناء الجملة والدلالات والعموم.في هذه الورقة، نركز على التعرف على أي مدى تلتقط PTLMS السمات الدلالية وقيمها، على سبيل المثال، الارتباط بين القي مة الغنية والعالية الصافية.نستخدم ptlms للتنبؤ الرموز الملثمين باستخدام أنماط وقوائم العناصر من Wikidata من أجل التحقق من مدى احتمال ترميز PTLMS السمات الدلالية جنبا إلى جنب مع قيمها.مثل هذه الاستنتاجات القائمة على دلالات بديهية للبشر كجزء من فهم لغتنا.نظرا لأن PTLMS يتم تدريبها على كمية كبيرة من بيانات ويكيبيديا، فسوف نفترض أنها يمكن أن تولد تنبؤات مماثلة، ومع ذلك تكشف نتائجنا أن PTLMS لا تزال أسوأ بكثير من البشر في هذه المهمة.نوضح الأدلة والتحليل في شرح كيفية استغلال منهجيةنا لدمج سياق ودواني أفضل في PTLMS باستخدام قواعد المعرفة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا