ترغب بنشر مسار تعليمي؟ اضغط هنا

المرئيات: الرسم البياني المعرفة عالية الجودة للرؤية واللغة

VisualSem: a high-quality knowledge graph for vision and language

431   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

هناك حدود مثيرة في فهم اللغة الطبيعية (NLU) وتوليد (NLG) يدعو (NLG) نماذج لغة (Vision-and) التي يمكن أن تصل إلى إمكانية الوصول إلى مستودعات المعرفة المنظم الخارجية بكفاءة. ومع ذلك، فإن العديد من قواعد المعرفة الموجودة تغطي فقط المجالات المحدودة، أو تعاني من بيانات صاخبة، والأهم من ذلك كلها يصعب دمجها عادة في خطوط أنابيب اللغة العصبية. لملء هذه الفجوة، ونحن نطلق عرض المرئيات: رسم بياني لمعرفة عالية الجودة (كجم) والتي تشمل العقد مع المواد المتعددة اللغات والصور التوضيحية المتعددة، والعلاقات ذات الصلة بصريا. ونحن نطلق أيضا نموذج استرجاع متعدد الوسائط العصبي يمكنه استخدام الصور أو الجمل كمدخلات واسترداد الكيانات في كجم. يمكن دمج نموذج استرجاع متعدد الوسائط هذا في أي خط أنابيب نموذج (الشبكة العصبية). نحن نشجع مجتمع البحث على استخدام المرئيات لتعزيز البيانات و / أو كمصدر للتأريض، من بين الاستخدامات الأخرى الممكنة. تتميز المرئيات وكذلك نماذج استرجاع متعددة الوسائط متاحة للجمهور ويمكن تنزيلها في عنوان URL هذا: https://github.com/acercalixto/visualsem.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

النمذجة اللغوية المعقدة (MLM) هي واحدة من المهام الفرعية الرئيسية في محاكاة لغة الرؤية. في الإعداد عبر الوسائط، يتم ملثمين الرموز في الجملة بشكل عشوائي، والنموذج يتوقع أن تكون الرموز الممكنة التي أعطتها الصورة والنص. في هذه الورقة، نلاحظ العديد من عي وب MLM الرئيسية في هذا الإعداد. أولا، حيث تميل التسميات التوضيحية إلى أن تكون قصيرة، في ثلث الجمل لا يتم أخذ عينات من الجمل. ثانيا، غالبية الرموز الملثمين هي التوقف عن الكلمات وعلامات الترقيم، مما يؤدي إلى نقص في الاستخدام للصورة. إننا نحقق في مجموعة من استراتيجيات التقنيع البديلة المحددة لإعداد العرض المتعلق الذي يتناول هذه أوجه القصور، تهدف إلى توصيف أفضل من النص والصورة في التمثيل المستفاد. عند تدريب ما قبل التدريب على نموذج LXMERT، تتحسن استراتيجياتنا البديلة الخاصة بنا باستمرار عبر استراتيجية التقنيع الأصلية على ثلاثة مهام أسفل المصب، خاصة في إعدادات الموارد المنخفضة. علاوة على ذلك، يتفوق نهجنا قبل التدريب بشكل كبير على نموذج الأساس في مهمة التحقيق الفورية المصممة لاستنباط كائنات الصورة. تشير هذه النتائج وتحليلنا إلى أن طريقتنا تسمح باستفادة أفضل من بيانات التدريب.
يعمل العمل المسبق على جيل البيانات إلى النص، ومهمة تحويل الكلام الرسم البياني (KG) ثلاث مرات إلى نص طبيعي، يركز على مجموعات البيانات القياسية الخاصة بالمجال. ومع ذلك، في هذه الورقة، فإننا ننفذنا اللغة الإنجليزية بأكملها Wikidata KG، ومناقشة التحديات الفريدة المرتبطة بمجال واسع ومجموع واسع النطاق. نوضح كذلك بأنه لفظي كجم شامل ومكون من كجم مثل Wikidata يمكن استخدامه لدمج KGS الهيكلية واللغات الطبيعية. على عكس العديد من البنيات التي تم تطويرها لدمج هاتين المصدرين، فإن نهجنا يحول كجم إلى نص طبيعي، مما يسمح له بالدمج بسلاسة في نماذج اللغة الحالية. إنه يحمل مزايا أخرى لتحسين الدقة الواقعية وتقليل السمية في نموذج اللغة الناتج. نقوم بتقييم هذا النهج عن طريق زيادة عملية استرجاع النموذج لغوي استرجاع وإظهار تحسينات كبيرة على مهام المعرفة المكثفة في المجال المفتوح وكثير المعرفة LAMA.
حققت الرسم البياني المعرفي، الذي يمثل الكيانات والعلاقات في الرسوم البيانية المعرفة مع ناقلات عالية الأبعاد، تقدما كبيرا في التنبؤ بالربط. استكشف المزيد من الباحثين القدرات التمثيلية للنماذج في السنوات الأخيرة. وهذا هو، يحققون في نماذج تمثيلية أفضل ل تناسب التناظر / مضادات التنسيق والعلاقات الجمع. تعد نماذج التضمين الحالية أكثر ميلا لاستخدام ناقل متطابق لنفس الكيان في ثلاثة أضعاف لقياس الأداء المطابق. إن الملاحظة التي تقيس عقلانية ثلاثية محددة تعني مقارنة درجة المطابقة من السمات المحددة المرتبطة بالعلاقات معروفة جيدا. مستوحاة من هذه الحقيقة، تقوم هذه الورقة بتصميم المرشح الدلالي بناء على العلاقات (SFBR) لاستخراج الصفات المطلوبة للكيانات. ثم يتم مقارنة عقلانية ثلاثية تحت هذه السمات المستخرجة من خلال نماذج التضمين التقليدية. يمكن إضافة وحدة تصفية الدلالية إلى معظم نماذج التحلل الهندسية والشعور مع الحد الأدنى من الذاكرة الإضافية. تبين التجارب في مجموعات البيانات القياسية أن المرشح الدلالي القائم على العلاقات يمكن أن تقمع تأثير أبعاد السمات الأخرى وتحسين أداء تنبؤ الارتباط. حققت نماذج التحلل مع SFBR أحدث من الفن.
تعكس العلاقات في معظم الرسوم البيانية المعارف التقليدية (KGS) فقط الاتصالات الثابتة والواقعية، ولكنها تفشل في تمثيل الأنشطة الديناميكية وتغير الدولة حول الكيانات. في هذه الورقة، نؤكد على أهمية دمج الأحداث في تعلم تمثيل KG، واقتراح نموذج Eventke Event ke Eventke المحسن للحدث. على وجه التحديد، نظرا لل KG الأصلية، فإننا ندمج أول عقود حدث من خلال بناء شبكة غير متجانسة، حيث يتم توزيع العقد الكيانية وعقد الحدث على جانبي الشبكة بين روابط الوسيطة في الحدث. ثم نستخدم علاقات كيان الكيان من الروابط الزمنية KG والأحداث الزمنية الأصلية إلى الكيان والكيان الداخلي والوقت على التوالي. نقوم بتصميم طريقة تمرير رسائل مفيدة وتستند إلى الرواية، والتي يتم إجراؤها على كيان كيان وكيان الحدث وحدث الأحداث لفيد معلومات الحدث في AGBeddings KG. تظهر النتائج التجريبية على مجموعات البيانات في العالم الحقيقي أن الأحداث يمكن أن تحسن إلى حد كبير جودة AGEDDINGS KG على مهام متعددة المصب.
يتم تعريف حدود قابلية تطبيق نماذج الرؤية واللغة من خلال تغطية بياناتها التدريبية. تتطلب المهام مثل الرؤية الإجابة على الأسئلة (VQA) في كثير من الأحيان معلومات المنطقية والواقعية تتجاوز ما يمكن تعلمه من مجموعات البيانات الخاصة بمهام المهام. تحقق هذه ا لورقة في حقن المعرفة من قواعد المعرفة العامة للأغراض العامة (KBS) إلى محولات الرؤية واللغة. نحن نستخدم هدف تدريب إضافي يشجع التمثيلات المستفادة على محاذاة مع شرطة الرسم البياني للكيانات المطابقة في KB. ندرس تجريبيا أهمية مختلفة KBS إلى مهام ومعايير متعددة. توفر هذه التقنية فوائد واضحة لاستكشاف السؤال المطلقة على المعرفة (OK-VQA، FVQA) من خلال التقاط المعرفة الدلالية والعلدية غائبة عن النماذج القائمة. أكثر من المستغرب، فإن هذه التقنية تفيد أيضا مهام التفكير البصري (NLVR2، SNLI-VE). نقوم بإجراء تجارب التحقيق وإظهار أن حقن المعرفة الإضافية ينتقلان مساحة الشريات التي تحسن من تمثيل أوجه التشابه المعجمية والدلالية. تقنية النموذج الأذرع ويمكن أن توسع قابلية تطبيق أي محول للرؤية واللغة مع الحد الأدنى من النفقات الحاسوبية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا