ترغب بنشر مسار تعليمي؟ اضغط هنا

توسيع الرؤية: منطق العمولة البصرية المتنوعة

Broaden the Vision: Geo-Diverse Visual Commonsense Reasoning

223   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم تعريف المنزول على أنه المعرفة التي يوافق عليها الجميع. ومع ذلك، فإن أنواع معينة من المعرفة المنطقية مرتبطة بالثقافة والمواقع الجغرافية ويتم تقاسمها فقط محليا. على سبيل المثال، تختلف مشاهد مراسم الزفاف عبر المناطق الناجمة عن الجمارك المختلفة التي تتأثر بالعوامل التاريخية والدينية. ومع ذلك، حذفت هذه الخصائص الإقليمية عموما في العمل السابق. في هذه الورقة، نقوم بإنشاء مجموعة بيانات منطق مرئية للبصرية (GD-VCR) لاختبار قدرة النماذج في الرؤية واللغة على فهم المنطقية الثقافية والرائعة. على وجه الخصوص، نقوم بدراسة نماذج للرؤية واللغدية التي من بين الفنون، و Visualbert و Vilbert تدربت على VCR، وهو معيار قياسي مع الصور في المقام الأول من المناطق الغربية. بعد ذلك تقييم مدى جودة أن تعميم النماذج المدربة للإجابة على الأسئلة في GD-VCR. نجد أن أداء كلا النماذج للمناطق غير الغربية بما في ذلك شرق آسيا وجنوب آسيا وأفريقيا أقل بكثير من تلك الخاصة بالمنطقة الغربية. نقوم بتحليل الأسباب الكامنة وراء تباين الأداء وتجد أن فجوة الأداء أكبر على أزواج ضمنيا: 1) تشعر بالقلق من السيناريوهات المتعلقة بالثقافة، على سبيل المثال، حفلات الزفاف، الأنشطة الدينية، والمهرجانات؛ 2) تتطلب منطق المنطقي الجغرافي الرفيع المستوى بدلا من التصور والاعتراف بالترتيب المنخفض. يتم إصدار DataSet و Code في https://github.com/wadeyin9712/gd-vcr.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتم تعريف حدود قابلية تطبيق نماذج الرؤية واللغة من خلال تغطية بياناتها التدريبية. تتطلب المهام مثل الرؤية الإجابة على الأسئلة (VQA) في كثير من الأحيان معلومات المنطقية والواقعية تتجاوز ما يمكن تعلمه من مجموعات البيانات الخاصة بمهام المهام. تحقق هذه ا لورقة في حقن المعرفة من قواعد المعرفة العامة للأغراض العامة (KBS) إلى محولات الرؤية واللغة. نحن نستخدم هدف تدريب إضافي يشجع التمثيلات المستفادة على محاذاة مع شرطة الرسم البياني للكيانات المطابقة في KB. ندرس تجريبيا أهمية مختلفة KBS إلى مهام ومعايير متعددة. توفر هذه التقنية فوائد واضحة لاستكشاف السؤال المطلقة على المعرفة (OK-VQA، FVQA) من خلال التقاط المعرفة الدلالية والعلدية غائبة عن النماذج القائمة. أكثر من المستغرب، فإن هذه التقنية تفيد أيضا مهام التفكير البصري (NLVR2، SNLI-VE). نقوم بإجراء تجارب التحقيق وإظهار أن حقن المعرفة الإضافية ينتقلان مساحة الشريات التي تحسن من تمثيل أوجه التشابه المعجمية والدلالية. تقنية النموذج الأذرع ويمكن أن توسع قابلية تطبيق أي محول للرؤية واللغة مع الحد الأدنى من النفقات الحاسوبية.
أظهرت الأساليب الحديثة بناء على نماذج اللغة المدربين مسبقا أداء مشغل قوي على المنطق المنطقي.ومع ذلك، فإنها تعتمد على شروح بيانات باهظة الثمن والتدريب المستهلكة للوقت.وهكذا، نحن نركز على التفكير المنطقي غير المنشأ.نظهر فعالية استخدام إطار عمل مشترك، ا ستنتاج اللغة الطبيعية (NLI)، لحل مهام المنطق المنطقي متنوعة.من خلال الاستفادة من نقل التحويلات من مجموعات بيانات NLI الكبيرة، وحقن المعرفة الحاسمة من مصادر المنطقية مثل 2020 والفهول الذرية، حققت طريقنا أداء غير مدهز للحالة غير المدرجة في مهمتين منطقتي المنطقية: Winowhy و Commonsenseqa.أظهر إجراء مزيد من التحليل فوائد فئات متعددة من المعرفة، ولكن مشاكل حول الكميات والمتضادات لا تزال تحديا.
الحوار المرئي هو مهمة الإجابة على سلسلة من الأسئلة التي تأسست في صورة باستخدام سجل الحوار السابق كسياق. في هذه الورقة، ندرس كيفية معالجة تحديين أساسيين لهذه المهمة: (1) التفكير في الهياكل الدلالية الأساسية بين جولات الحوار و (2) تحديد العديد من الإجا بات المناسبة على السؤال المحدد. لمعالجة هذه التحديات، نقترح طريقة لتعليم الرسومات Sparse (SGL) لصياغة مربع حوار مرئي كهزم تعلم هيكل الرسم البياني. ينتشر SGL هياكل الحوار متناثرة بطبيعته من خلال دمج حواف ثنائية وتسهيل وظيفة فقدان هيكلية جديدة. بعد ذلك، نقدم طريقة نقل المعرفة (KT) التي تستخرج تنبؤات الإجابة من نموذج المعلم وتستخدمها باسم ملصقات زائفة. نقترح KT لعلاج أوجه القصور في ملصقات فردية واحدة للحقيقة، والتي تحد بشدة من قدرة نموذج للحصول على إجابات معقولة متعددة. نتيجة لذلك، يحسن نموذجنا المقترح بشكل كبير القدرة على التفكير مقارنة بطرق خط الأساس وتتفوق من الأساليب الحديثة على مجموعة بيانات V1.0 Versdial. يتوفر شفرة المصدر في https://github.com/gicheonkang/sglkt-visdial.
نقوم بدراسة استرجاع الأجابة المتعددة، وهي مشكلة غير استكشافية تتطلب استرجاع المقاطع لتغطية إجابات مميزة متعددة لسؤال معين. تتطلب هذه المهمة نمذجة مشتركة للممرات المستردة، حيث يجب ألا تسترجع النماذج مرارا وتكرارا الممرات التي تحتوي على نفس الإجابة بتك لفة مفقودة إجابة صالحة مختلفة. يعد العمل المسبق التركيز على استرجاع الإجابة الفردية محدودا لأنه لا يستطيع السبب في مجموعة المقاطعات المشتركة. في هذه الورقة، نقدم JPR، نموذج استرجاع مقطع مشترك يركز على إعادة إطلاق Reranking. لنموذج الاحتمال المشترك للممرات المستردة، يستخدم JPR لاستخدام Reranker التلقائي الذي يختار تسلسل من المقاطع، ومجهز بخوارزميات تدريب جديدة وفك تشفيرها. بالمقارنة مع النهج المسبقة، يحقق JPR تغطية إجابة أفضل بكثير على ثلاثة مجموعات بيانات متعددة الإجابات. عند الجمع بين مسألة السؤال المصب، يتيح الاسترجاع المحسن نماذج توليد الإجابات الأكبر لأنها تحتاج إلى النظر في عدد أقل من المقاطع، وإنشاء حالة جديدة من بين الفن.
يرمي البحث تفكيك البنية التكوينية لرؤية ماركيوز النقدية– التحليلية ,للكيفية التي على نحوها يمكن للفن : المخيلة- أو ما أسماها الحساسية الجديدة -أن يلعبه في مسألة تثوير الوعي وتكوين الإدراك . والعمل بأدوات معرفية جديدة - روافعها الرئيسة تربية جمالية فا علة, ولغة جديدة– لخلق عالم جديد على مستوى الفكر والواقع . مبدؤه الايروس ( غرائز الحياة ) لا( الزائد المردود ) . في عالم أمكن لعقلانية حضارته التكنولوجية المتقدمة ,وما تقتضيه العملية الشاملة لصيرورة إنتاجها من ضرورات ، وسياسات رأس مال ، وتقلبات سوق ، ووسائل اتصال جماهيري , وأساليب دعاية وإعلان ....الخ من أن ترسخ دعائم نظام كامل من السيطرة والتنسيق والهيمنة يجرد سلفا كل احتجاج، وكل معارضة من سلاحها، ويزيف الوعي، ويقلص البعد الداخلي للثقافة والفكر، ويخلق ما لا حصر له من الحاجات الزائفة. ومع ذلك يحول الذوات الفردية كلها, كما الأشياء إلى أدوات عاملة في مجموع إنتاجي ضخم, يستمد مبرر وجوده, واستمرار قيامه ,وقوته, وشمول هيمنته ,من إنتاجيه ضخمة, ومما تحققه تلك الإنتاجية من منجزات في مختلف مستويات الحياة . ما يمكنه من أن يقف دون إحداث أي تبدل أو قيام أي تغير اجتماعي ,فكري , سياسي , اقتصادي, يؤدي إلى قيام مؤسسات جديدة ، وظهور أنماط جديدة للحياة, تختلف اختلافاً جوهرياً عما هو قائم. تقهر بقيامها حال الاغتراب والقمع والقهر والتشيؤ التي تنفذ إلى أعماق واقع حياة إنسان ومجتمع الحداثة. وتقوم معها البيئة الطبيعية لتطور الحاجات والملكات والإمكانيات البشرية، ولتكوين ذات تاريخية _جمالية جديدة.يمكنها أن تحقق ذاتها وتؤكد وجودها الحر. وتبني مجتمعها الحر الذي يحيا الأفراد الأحرار_ الذين ربوا جما ليا_بين ظهرانيه حياة الاستمتاع بتلك الحرية قولاً وفعلاً، فكراً وممارسة.وبالمحصلة تقوم الحضارة الأيروسية,الحضارة _الحرية, بدل حضارة العالم التكنولوجي القمعية القائمة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا