ترغب بنشر مسار تعليمي؟ اضغط هنا

استرجاع متعددة الوسائط للجداول والنصوص باستخدام نماذج Tri-Encoder

Multi-modal Retrieval of Tables and Texts Using Tri-encoder Models

291   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تفتح الأسئلة الاستخراجية المفتوحة الإجابة تعمل بشكل جيد على البيانات النصية من خلال استرداد النصوص المرشحة أولا ثم استخراج الإجابة من هؤلاء المرشحين. ومع ذلك، لا يمكن الإجابة على بعض الأسئلة بالنص وحدها ولكنها تتطلب معلومات مخزنة في الجداول. في هذه الورقة، نقدم نهج لاستعادة كلا النصين والجداول ذات الصلة بالسؤال من خلال ترميز النصوص والطاولات والأسئلة في مساحة متجه واحدة. تحقيقا لهذه الغاية، نقوم بإنشاء مجموعة بيانات جديدة متعددة الوسائط بناء على مجموعات بيانات النصوص والجدول من العمل ذي الصلة ومقارنة أداء استرجاع مخطط ترميز مختلفة. نجد أن تضمين ناقلات كثيفة نماذج المحولات تتفوق على تضمين متفرق في أربع مجموعات من مجموعات بيانات تقييم. مقارنة نماذج تضمين كثيفة مختلفة، تزيد TRI-Encoders مع ترميز واحد لكل سؤال ونص وجدول أداء استرجاع مقارنة بالتشفيات الثنائية مع ترميز واحد للحصول على سؤال واحد لكل من النص والجداول. نطلق سراح مجموعة بيانات متعددة الوسائط التي تم إنشاؤها حديثا للمجتمع بحيث يمكن استخدامها للتدريب والتقييم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال مرئي (VQA).أولا، نحن ندرب نموذج محاذاة جديدة لتضمين الصور والتعليقات التوضيحية في نفس الفضاء، والذي يحقق تحسنا كبيرا في الأداء على استرجاع التعليق على الصورة W.r.T.طرق مماثلة.ثانيا، نظهر أن المحولات متعددة الوسائط متعددة الاسترجاع باستخدام نموذج المحاذاة المدربين يحسن النتائج على VQA عبر خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط طويلة.كلنا إجراء تجارب مكثفة لإثبات وعد هذا النهج، وفحص طلبات جديدة لوقت الاستدلال مثل مؤشرات التبديلات الساخنة.
في المدارس الابتدائية، تستخدم كتب الأطفال، وكذلك في تطبيقات تعلم اللغة الحديثة، واستراتيجيات تعليمية متعددة الوسائط مثل الرسوم التوضيحية للمصطلحات والعبارات لدعم فهم القراءة.أيضا، تشير العديد من الدراسات في علم النفس التعليمي إلى أن دمج المعلومات الع ابطة العابرة ستحسن من فهم القراءة.نحن ندعي أن محولات الحالة متعددة الوسائط، والتي يمكن استخدامها في سياق متعلم لغوي لتحسين القراءة البشرية، ستؤدي بشكل سيئ بسبب البيانات النصية القصيرة والبسيطة نسبيا والتي يتم تدريب تلك النماذج معها.لإثبات فرضياتنا، جمعنا مجموعة بيانات جديدة متعددة الوسائط على أساس البيانات من Wikipedia.في تحليل بيانات متعمقة، نسلط الضوء على الاختلافات بين مجموعة البيانات الخاصة بنا ومجموعات البيانات الشائعة الأخرى.بالإضافة إلى ذلك، نقوم بتقييم العديد من المحولات متعددة الوسائط متعددة الأحوال على استرجاع الصور النصية على مجموعة بياناتنا وتحليل نتائجها الضئيلة، والتي تحقق من مطالباتنا.
نقترح مهمة جديدة، Text2Mol، لاسترداد الجزيئات باستخدام أوصاف اللغة الطبيعية كاستعلامات. تشفر اللغة الطبيعية والجزيئات المعلومات بطرق مختلفة جدا، مما يؤدي إلى مشكلة مثيرة ولكن صعبة للغاية لإدماج هاتين الطرائق المختلفة للغاية. على الرغم من أن بعض الأعم ال قد تم في استرجاع الاسترجاع والبنية القائمة على النصوص، إلا أن هذه المهمة الجديدة تتطلب دمج الجزيئات واللغة الطبيعية بشكل مباشر. علاوة على ذلك، يمكن اعتبار ذلك مشكلة استرجاع متبادلة مليئة بالتحدي بشكل خاص من خلال النظر في الجزيئات ككلدا بقواعد فريدة من نوعها. نقوم بإنشاء مجموعة بيانات مزخرفة من الجزيئات وأوصاف النص المقابلة، والتي نستخدمها لتعلم مساحة تضمين الدلالة المشتركة المحاذاة لاسترجاعها. نقوم بتمديد هذا لإنشاء نموذج يعتمد على الاهتمام عبر الوسائط للتفسير وإعادة تأهب من خلال تفسير الانتباه كقواعد جمعية. نوظف أيضا نهج فرقة لإدماج بنياتنا المختلفة، والتي تعمل بشكل كبير على تحسين النتائج من 0.372 إلى 0.499 مرين. يفتح هذا النهج الجديد متعدد الوسائط وجهة نظر جديدة حول حل المشكلات في فهم الأدب الكيمياء وتعلم الجهاز الجزيئي.
تجسد السخرية والشعور من عدم اليقين الجوهري للإدراك الإنساني، مما يجعل الكشف المشترك عن السخرية متعددة الوسائط ومشاعر مهمة صعبة. في ضوء مزايا الاحتمالات الكمومية (QP) في نمذجة هذا الشكوك، تستكشف هذه الورقة إمكانات QP كإطار رياضي وتقترح إطارا للتعليم م تعدد المهام المدفوعة من QP (QPM). ينطوي إطار QPM على تشفير تمثيل متعدد الوسائط متعدد الأوضاع، وهي فرعية فرعية تشبه الاصطدام الكمومية وآلية قياس الكم. يتم ترميز كل الكلام متعدد الوسائط (على سبيل المثال، النصي، المرئي البصري) لأول مرة كتراكبة كمية لمجموعة من المصطلحات الأساس باستخدام تمثيل ذو قيمة معقدة. بعد ذلك، يرفع الشبكة الفرعية التي تشبه الكتابة الكمومية تكوين الدولة الكم وتدخل الكم لنموذج التفاعل السياقي بين الكلام المجاورة والارتباطات عبر الطرائق على التوالي. أخيرا، يتم إجراء القياسات الكمية غير المتوافقة على التمثيل المتعدد الوسائط لكل كلام لإحداث النتائج الاحتمالية من السخرية والاعتراف بالمشاعر. تظهر النتائج التجريبية أن نموذجنا يحصل على أداء حديثة.
تهدف الترجمة متعددة الوسائط (MMT) إلى تحسين أداء الترجمة من خلال دمج المعلومات المرئية. معظم الدراسات الاستفادة من المعلومات المرئية من خلال دمج ميزات الصورة العالمية كمدخل إضافي أو فك تشفير من خلال حضور المناطق المحلية ذات الصلة في الصورة. ومع ذلك، فإن هذا النوع من استخدام المعلومات المرئية يجعل من الصعب معرفة كيفية تساعد طريقة المرئية ولماذا يعمل. مستوحاة من نتائج (الاقتباس) التي تعد الكيانات أكثر تفكيا في الصورة، نقترح نهجا للتعلم الصريح عبر مستوى الكيانات يهدف إلى زيادة تمثيل الكيان. على وجه التحديد، يتم تأطير النهج كهجوم لإعادة الإعمار الذي يعيد إدخال المدخلات النصية الأصلية من المدخلات متعددة الوسائط يتم استبدال الكيانات بالكيانات بالميزات المرئية. بعد ذلك، يتم استخدام إطار عمل متعدد المهام في الجمع بين مهمة الترجمة ومهمة إعادة الإعمار للاستفادة الكاملة من تعلم تمثيل الكيان عبر الوسائط. تثبت التجارب الواسعة أن نهجنا يمكن أن يحقق أداء قابلا للمقارنة أو أفضل من النماذج الحديثة. علاوة على ذلك، يوضح تحليلنا المتعمق كيفية تحسين المعلومات المرئية الترجمة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا