ترغب بنشر مسار تعليمي؟ اضغط هنا

نحو استرجاع الصورة النصية متعددة الوسائط لتحسين القراءة البشرية

Towards Multi-Modal Text-Image Retrieval to improve Human Reading

242   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في المدارس الابتدائية، تستخدم كتب الأطفال، وكذلك في تطبيقات تعلم اللغة الحديثة، واستراتيجيات تعليمية متعددة الوسائط مثل الرسوم التوضيحية للمصطلحات والعبارات لدعم فهم القراءة.أيضا، تشير العديد من الدراسات في علم النفس التعليمي إلى أن دمج المعلومات العابطة العابرة ستحسن من فهم القراءة.نحن ندعي أن محولات الحالة متعددة الوسائط، والتي يمكن استخدامها في سياق متعلم لغوي لتحسين القراءة البشرية، ستؤدي بشكل سيئ بسبب البيانات النصية القصيرة والبسيطة نسبيا والتي يتم تدريب تلك النماذج معها.لإثبات فرضياتنا، جمعنا مجموعة بيانات جديدة متعددة الوسائط على أساس البيانات من Wikipedia.في تحليل بيانات متعمقة، نسلط الضوء على الاختلافات بين مجموعة البيانات الخاصة بنا ومجموعات البيانات الشائعة الأخرى.بالإضافة إلى ذلك، نقوم بتقييم العديد من المحولات متعددة الوسائط متعددة الأحوال على استرجاع الصور النصية على مجموعة بياناتنا وتحليل نتائجها الضئيلة، والتي تحقق من مطالباتنا.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال مرئي (VQA).أولا، نحن ندرب نموذج محاذاة جديدة لتضمين الصور والتعليقات التوضيحية في نفس الفضاء، والذي يحقق تحسنا كبيرا في الأداء على استرجاع التعليق على الصورة W.r.T.طرق مماثلة.ثانيا، نظهر أن المحولات متعددة الوسائط متعددة الاسترجاع باستخدام نموذج المحاذاة المدربين يحسن النتائج على VQA عبر خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط طويلة.كلنا إجراء تجارب مكثفة لإثبات وعد هذا النهج، وفحص طلبات جديدة لوقت الاستدلال مثل مؤشرات التبديلات الساخنة.
تفتح الأسئلة الاستخراجية المفتوحة الإجابة تعمل بشكل جيد على البيانات النصية من خلال استرداد النصوص المرشحة أولا ثم استخراج الإجابة من هؤلاء المرشحين. ومع ذلك، لا يمكن الإجابة على بعض الأسئلة بالنص وحدها ولكنها تتطلب معلومات مخزنة في الجداول. في هذه ا لورقة، نقدم نهج لاستعادة كلا النصين والجداول ذات الصلة بالسؤال من خلال ترميز النصوص والطاولات والأسئلة في مساحة متجه واحدة. تحقيقا لهذه الغاية، نقوم بإنشاء مجموعة بيانات جديدة متعددة الوسائط بناء على مجموعات بيانات النصوص والجدول من العمل ذي الصلة ومقارنة أداء استرجاع مخطط ترميز مختلفة. نجد أن تضمين ناقلات كثيفة نماذج المحولات تتفوق على تضمين متفرق في أربع مجموعات من مجموعات بيانات تقييم. مقارنة نماذج تضمين كثيفة مختلفة، تزيد TRI-Encoders مع ترميز واحد لكل سؤال ونص وجدول أداء استرجاع مقارنة بالتشفيات الثنائية مع ترميز واحد للحصول على سؤال واحد لكل من النص والجداول. نطلق سراح مجموعة بيانات متعددة الوسائط التي تم إنشاؤها حديثا للمجتمع بحيث يمكن استخدامها للتدريب والتقييم.
نقوم بتحليل ما إذا كانت نماذج اللغة الكبيرة قادرة على التنبؤ بأنماط سلوك القراءة البشرية.قارنا أداء نماذج محولات محول خاصة باللغات ومتعددة اللغات للتنبؤ بتدابير وقت القراءة التي تعكس معالجة الجملة البشرية الطبيعية على النصوص الهولندية والإنجليزية وال ألمانية والروسية.ينتج عن هذا نماذج دقيقة من سلوك القراءة البشرية، والذي يشير إلى أن نماذج المحولات ترميز ضمنيا أهمية نسبية في اللغة بطريقة مماثلة لآليات المعالجة البشرية.نجد أن نماذج بيرت و XLM تتنبأ بنجاح مجموعة من ميزات تتبع العين.في سلسلة من التجارب، نحلل القدرات عبر المجال واللغات الشاملة لهذه النماذج وإظهار كيف تعكس معالجة الجملة البشرية.
نقترح مهمة جديدة، Text2Mol، لاسترداد الجزيئات باستخدام أوصاف اللغة الطبيعية كاستعلامات. تشفر اللغة الطبيعية والجزيئات المعلومات بطرق مختلفة جدا، مما يؤدي إلى مشكلة مثيرة ولكن صعبة للغاية لإدماج هاتين الطرائق المختلفة للغاية. على الرغم من أن بعض الأعم ال قد تم في استرجاع الاسترجاع والبنية القائمة على النصوص، إلا أن هذه المهمة الجديدة تتطلب دمج الجزيئات واللغة الطبيعية بشكل مباشر. علاوة على ذلك، يمكن اعتبار ذلك مشكلة استرجاع متبادلة مليئة بالتحدي بشكل خاص من خلال النظر في الجزيئات ككلدا بقواعد فريدة من نوعها. نقوم بإنشاء مجموعة بيانات مزخرفة من الجزيئات وأوصاف النص المقابلة، والتي نستخدمها لتعلم مساحة تضمين الدلالة المشتركة المحاذاة لاسترجاعها. نقوم بتمديد هذا لإنشاء نموذج يعتمد على الاهتمام عبر الوسائط للتفسير وإعادة تأهب من خلال تفسير الانتباه كقواعد جمعية. نوظف أيضا نهج فرقة لإدماج بنياتنا المختلفة، والتي تعمل بشكل كبير على تحسين النتائج من 0.372 إلى 0.499 مرين. يفتح هذا النهج الجديد متعدد الوسائط وجهة نظر جديدة حول حل المشكلات في فهم الأدب الكيمياء وتعلم الجهاز الجزيئي.
تهدف الترجمة متعددة الوسائط (MMT) إلى تحسين أداء الترجمة من خلال دمج المعلومات المرئية. معظم الدراسات الاستفادة من المعلومات المرئية من خلال دمج ميزات الصورة العالمية كمدخل إضافي أو فك تشفير من خلال حضور المناطق المحلية ذات الصلة في الصورة. ومع ذلك، فإن هذا النوع من استخدام المعلومات المرئية يجعل من الصعب معرفة كيفية تساعد طريقة المرئية ولماذا يعمل. مستوحاة من نتائج (الاقتباس) التي تعد الكيانات أكثر تفكيا في الصورة، نقترح نهجا للتعلم الصريح عبر مستوى الكيانات يهدف إلى زيادة تمثيل الكيان. على وجه التحديد، يتم تأطير النهج كهجوم لإعادة الإعمار الذي يعيد إدخال المدخلات النصية الأصلية من المدخلات متعددة الوسائط يتم استبدال الكيانات بالكيانات بالميزات المرئية. بعد ذلك، يتم استخدام إطار عمل متعدد المهام في الجمع بين مهمة الترجمة ومهمة إعادة الإعمار للاستفادة الكاملة من تعلم تمثيل الكيان عبر الوسائط. تثبت التجارب الواسعة أن نهجنا يمكن أن يحقق أداء قابلا للمقارنة أو أفضل من النماذج الحديثة. علاوة على ذلك، يوضح تحليلنا المتعمق كيفية تحسين المعلومات المرئية الترجمة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا