ترغب بنشر مسار تعليمي؟ اضغط هنا

نحو تطوير سؤال مرئي متعدد اللغات ومزوج التعليمات البرمجية من خلال تنطير المعرفة

Towards Developing a Multilingual and Code-Mixed Visual Question Answering System by Knowledge Distillation

213   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أظهرت نماذج الرؤية اللغوية المدربة مسبقا أداء رائعا حول مهمة الإجابة على السؤال المرئي (VQA). ومع ذلك، يتم تدريب معظم النماذج المدربة مسبقا من خلال النظر فقط في التعلم أحادي الأونلينغ، وخاصة اللغة الغنية بالموارد مثل اللغة الإنجليزية. تدريب هذه النماذج للكمات متعددة اللغات طلب موارد الحوسبة عالية ومجموعات بيانات الرؤية متعددة اللغات التي تعيق تطبيقها في الممارسة العملية. لتخفيف هذه التحديات، نقترح نهج تقطير المعرفة لتوسيع نموذج للرؤية باللغة الإنجليزية (المعلم) في نموذج متعدد اللغات ومزوج التعليمات البرمجية (طالبة). على عكس أساليب تقطير المعرفة الحالية، والتي تستخدم فقط الإخراج من الطبقة الأخيرة من شبكة المعلم للتقطير، يتعلم نموذج الطالب الخاص بنا وتقليد المعلم من طبقات متعددة الوسائط (تشفير اللغة والرؤية) بأهداف تقطير مصممة بشكل مناسب لاستخراج المعرفة الإضافية وبعد كما نقوم بإنشاء مجموعة بيانات VQA متعددة اللغات متعددة اللغات متعددة اللغات وخلطها في أحد عشر جهازا مختلفا للنظر في اللغات الهندية والأوروبية المتعددة. تظهر النتائج التجريبية والتحليل المتعمق فعالية نموذج VQA المقترح على نماذج الرؤية المدربة مسبقا في الرؤية المدربة مسبقا في أحد عشر من إعدادات لغة متنوعة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تستخدم أنظمة الرد على السؤال المرئي الحالي (VQA) بشكل شائع الشبكات العصبية الرسم البيانية (GNNS) لاستخراج العلاقات البصرية مثل العلاقات الدلالية أو العلاقات المكانية. ومع ذلك، فإن الدراسات التي تستخدم GNNS تتجاهل عادة أهمية كل علاقة وتسلسل ببساطة الن واتج من ترميز العلاقات المتعددة. في هذه الورقة، نقترح هندسة طبقة جديدة تضرب علاقات مرئية متعددة من خلال آلية الاهتمام لمعالجة هذه المسألة. على وجه التحديد، نقوم بتطوير نموذج يستخدم تضمين السؤال ومضمون مشترك للمشفرين للحصول على أوزان الاهتمام الديناميكي فيما يتعلق بنوع الأسئلة. باستخدام الأوزان الاهتمام بالترفيه، يمكن للنموذج المقترح استخدام ميزات العلاقة المرئية اللازمة لسؤال معين. النتائج التجريبية على DataSet VQA 2.0 توضح أن النموذج المقترح تفوق الفنيات القائمة على الرسم البياني القائمة على شبكة الإنترنت. بالإضافة إلى ذلك، نقوم بتصور وزن الاهتمام وإظهار أن النموذج المقترح يعين وزن أعلى للعلاقات الأكثر صلة بالمسألة.
نحن ندرس تحليل عمرو متعدد اللغات من منظور تقطير المعرفة، حيث يكون الهدف هو تعلم وتحسين محلل عمرو متعدد اللغات باستخدام محلل إنجليزي موجود كمعلم لها.نحن تقيد استكشافنا في إعداد صارم متعدد اللغات: هناك نموذج واحد لتحليل جميع اللغات المختلفة بما في ذلك اللغة الإنجليزية.نحدد أن المدخلات الصاخبة والإخراج الدقيق هي مفتاح التقطير الناجح.جنبا إلى جنب مع التدريب المسبق الواسع، نحصل على محلل عمري الذي يتجنب عروضه جميع النتائج التي تم نشرها مسبقا على أربعة لغات أجنبية مختلفة، بما في ذلك الهوامش الألمانية والإسبانية والإيطالية والصينية، بواسطة هوامش كبيرة (تصل إلى 18.8 نقطة برائحة على الصينية وفي المتوسط 11.3نقاط smatch).يحقق محللنا أيضا أداء قابلا للمقارنة على اللغة الإنجليزية إلى أحدث المحللين باللغة الإنجليزية فقط.
جيل النص هو مجال نشط للغاية في البحث في المجتمع اللغوي الحسابي.يعد تقييم النص الذي تم إنشاؤه مهمة صعبة وتم اقتراح نظريات ومقاييس متعددة على مر السنين.لسوء الحظ، يتم إدراج توليد النص والتقييم نسبيا نسبيا بسبب ندرة الموارد عالية الجودة في اللغات المختل طة من التعليمات البرمجية حيث يتم خلط الكلمات والعبارات من لغات متعددة في كلام واحد للنص والكلام.لمعالجة هذا التحدي، نقدم كوربا (المفصلي) لغرض لغة مختلطة شائعة على نطاق واسع هينجليشيلي (مزيج من اللغات الهندية والإنجليزية).يحتوي المفصلات على جمل هنشية التي تم إنشاؤها من قبل البشر بالإضافة إلى خوارزميتين تعتمد على القواعد يتوافق مع الجمل الهندية والإنجليزية الموازية.بالإضافة إلى ذلك، نوضح فعالية مقاييس التقييم المستخدمة على نطاق واسع على البيانات المختلطة من التعليمات البرمجية.ستسهل مجموعة بيانات المفصلات التقدم المحرز في مجال أبحاث توليد اللغة الطبيعية في اللغات المختلطة التعليمات البرمجية.
يمثل تحديا كبيرا في تحليل بيانات Me-Dia الاجتماعية التي تنتمي إلى لغات تستخدم البرنامج النصي غير الإنجليزي هو طبيعتها المختلطة من التعليمات البرمجية.قدمت أثر الحدث الذي أحدث طرازات تضمين حديثة تضمين تضمين الحديث (كل من أحادي الأحادي S.A.bert و Multil ingal S.A.XLM-R) كهدوث نهج FOROMISP.في هذه الورقة، نوضح أداء هذا التضمين وزارة الدفاع إلى العوامل المتعددة، مثل الخلاط الشامل من الشفرة في DataSet، وكلفة بيانات التدريب.نحن منظمات تجريبية أن كبسولة مقدمة تقدمت حديثا يمكن أن تتفوق على مصنف مصنوع على Bertned English-Bert بالإضافة إلى مجموعة بيانات تدريب XLM-R فقط من حوالي 6500 عينة لبيانات Sinhala-English المزاجية للبيانات المختلطة.
نحن نتعامل مع استجابة سؤال متعددة الاختيار.الحصول على معرفة المنطقية ذات الصلة بالسؤال والخيارات يسهل الاعتراف بالإجابة الصحيحة.ومع ذلك، تعاني نماذج التفكير الحالية من الضوضاء في المعرفة المستردة.في هذه الورقة، نقترح طريقة ترميز جديدة قادرة على إجراء الاعتراض والتصفية الناعمة.وهذا يساهم في حصاد وامتصاص المعلومات التمثيلية مع تدخل أقل من الضوضاء.نقوم بتجربة commonsenseqa.توضح النتائج التجريبية أن طريقتنا تعطي تحسينات كبيرة ومتسقة مقارنة بخدمات الأساس والقاعدة القائمة على روبرتا وألبرت.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا