ترغب بنشر مسار تعليمي؟ اضغط هنا

التنوع والاتساق: استكشاف جيل زوج الإجابة السؤال المرئي

Diversity and Consistency: Exploring Visual Question-Answer Pair Generation

158   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

على الرغم من إظهار قيم واعدة للتطبيقات المصب، فإن توليد السؤال والإجابة معا يتم استكشافها. في هذه الورقة، نقدم مهمة جديدة تستهدف توليد زوج الإجابة على الأسئلة من الصور المرئية. لا يتطلب عدم توليد أزواج حول الإجابات المتنوعة فقط ولكن أيضا الحفاظ على الاتساق منهم. نحن ندرس نماذج جيل مختلفة لهذه المهمة واقتراح ثلاث نماذج: نموذج خط الأنابيب، النموذج المشترك، النموذج المتسلسل. نحن ندمج الاستدلال الاختلافي في هذه النماذج لتحقيق التنوع والاتساق. ونحن نقترح أيضا تقدير تمثيل المنطقة ومحاذاة الاهتمام لتحسين الاتساق أكثر. ونحن أخيرا وضع مقيم كقيط كمي للاتساق. نحن نقوم بالتحقق من نهجنا على معيارين، VQA2.0 و Visual-7W، من خلال تقييم التنوع والاتساق يدويا يدويا. تظهر النتائج التجريبية فعالية نماذجنا: يمكن أن تولد أزواج متنوعة أو متسقة. علاوة على ذلك، يمكن استخدام هذه المهمة لتحسين جيل السؤال المرئي والإجابة على السؤال المرئي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

على الرغم من الأداء الممتاز في مهام مثل الإجابة على الأسئلة، تظل الهيغات القائمة على المحولات حساسة للمغوصات النحوية والسياقية. توفر إعادة صياغة الأسئلة (QP) حلا واعدا كوسيلة لزيادة مجموعات البيانات الحالية. تتضمن التحديات الرئيسية لنماذج QP الحالية عدم وجود بيانات تدريبية وصعوبة في توليد أسئلة متنوعة وطبيعية. في هذه الورقة، نقدم الفتح، إطارا لتوليد مجموعات البيانات الاصطناعية للحصول على إعادة صياغة الأسئلة السياقية. تحقيقا لهذه الغاية، توظف الفتح أولا نموذج جيل سؤال للإجابة (QG) لإنشاء مجموعة بيانات سؤال-زوج ثم يستخدم هذه البيانات لتدريب نموذج إعادة صياغة الأسئلة السياقية. نقوم بتقييم الفتح على نطاق واسع وإظهار قدرتها على إنتاج أزواج أسئلة متنوعة وطلاقة أكثر من الأساليب الحالية. ينشئ نموذج إعادة الصياغة السياقية لدينا أيضا خط أساس قوي للحصول على إعادة صياغة سياقية نهاية إلى نهاية. علاوة على ذلك، نجد أن السياق يمكن أن يحسن النتيجة BLEU-1 على الضغط السياقي والتوسع بنسبة 4.3 و 11.2 على التوالي، مقارنة بنموذج غير سياقي.
Dual-Encoders هي آلية واعدة لاسترجاع الإجابة في أنظمة الإجابة على الأسئلة (QA). حاليا معظم التشفير المزدوج التقليدية تعلم التمثيل الدلالي للأسئلة والأجوبة فقط من خلال نقاط مطابقة. اقترح الباحثون تقديم ميزات تفاعلات ضمان الجودة في وظيفة التهديف ولكن ب تكلفة منخفضة الكفاءة في مرحلة الاستدلال. للحفاظ على الترميز المستقل للأسئلة والأجوبة أثناء مرحلة الاستدلال، يتم تقديم التشفير التلقائي التلقائي بشكل أكبر لإعادة بناء الإجابات (الأسئلة) من Asceddings من السؤال (الإجابة) بمثابة مهمة مساعدة لتعزيز تفاعل QA في مرحلة التدريب في مرحلة التدريب في مرحلة التدريب في مرحلة التدريب في مرحلة التدريب. ومع ذلك، فإن احتياجات جيل النص واسترجاع الإجابة مختلفة، مما يؤدي إلى صلابة في التدريب. في هذا العمل، نقترح إطارا لتعزيز نموذج المشفرين المزدوجين مع الإجابة على السؤال وآلية محاذاة هندسية جديدة (GAM) لمواءمة الهندسة من المدينات من الترميز المزدوج مع ذلك من التشفير عبر التشفير. تظهر النتائج التجريبية الواسعة أن إطارنا يحسن بشكل كبير من طراز الترميز المزدوج وتفوق على الطريقة التي تظهر على مجموعة بيانات استرجاع الإجابة المتعددة.
تم إظهار نماذج الإجابة على الأسئلة (QA) للحصول على فهم القراءة لاستغلال تحيزات محددات غير مقصودة مثل السؤال - التداخل المعجمي السياق. هذا يعيق نماذج ضمان الجودة من المعمم إلى العينات الممثلة تمثيلا مثل الأسئلة ذات التداخل المعجمي المنخفض. يمكن أن يكو ن جيل السؤال (QG)، وهي طريقة لتعزيز مجموعات بيانات QA، حل تدهور الأداء إذا كان QG يمكن أن Debias QA بشكل صحيح. ومع ذلك، نكتشف أن نماذج QG العصبية الأخيرة متحيزة نحو توليد الأسئلة ذات التداخل المعجمي العالي، والتي يمكن أن تضخيم تحيز DataSet. علاوة على ذلك، يكشف تحليلنا أن تكبير البيانات مع نماذج QG هذه تضعف بشكل متكرر الأداء على الأسئلة مع التداخل المعجمي المنخفض، مع تحسين ذلك على الأسئلة ذات التداخل المعجمي العالي. لمعالجة هذه المشكلة، نستخدم نهج مرادف يستند إلى استبدال أسئلة زيادة التداخل المعجمي المنخفض. نوضح أن نهج تكبير البيانات المقترح بسيط ولكنه فعال في التخفيف من مشكلة التدهور مع الأمثلة الاصطناعية 70K فقط.
تعتبر تصور القصة مهمة غير مسجلة تقع عند تقاطع العديد من الاتجاهات البحثية المهمة في كل من رؤية الكمبيوتر ومعالجة اللغات الطبيعية. في هذه المهمة، نظرا لسلسلة من التسميات التوضيحية باللغة الطبيعية التي تنشأ قصة، يجب أن يولد الوكيل سلسلة من الصور التي ت توافق مع التسميات التوضيحية. قدم العمل السابق نماذج تائحة تكرار تتفوق نماذج توليف النص إلى الصورة في هذه المهمة. ومع ذلك، هناك مجال لتحسين الصور التي تم إنشاؤها من حيث الجودة البصرية والتماسك والأهمية. نقدم عددا من التحسينات إلى نهج النمذجة السابقة، بما في ذلك (1) إضافة إطار تعليمي مزدوج يستخدم تقسيم الفيديو لتعزيز المحاذاة الدلالية بين القصة والصور التي تم إنشاؤها، (2) آلية تحويل النسخ المتوسطة تصور القصة، و (3) من المحولات المستندة إلى مارت إلى التفاعلات المعقدة بين الإطارات. نقدم دراسات الاجتثاث لإظهار تأثير كل تقنيات من هذه التقنيات على القوة المنتجة للنموذج لكل من الصور الفردية وكذلك السرد بأكمله. علاوة على ذلك، بسبب تعقيد الطبيعة والطبيعة الإندنية للمهمة، لا تعكس مقاييس التقييم القياسية الأداء بدقة. لذلك، فإننا نقدم أيضا استكشاف مقاييس التقييم للنموذج، ركز على جوانب الإطارات التي تم إنشاؤها مثل وجود / جودة الشخصيات الناتجة، والأهمية التعيينات، وتنوع الصور التي تم إنشاؤها. نقدم أيضا تجارب الارتباط لمقاييسنا الآلية المقترحة مع التقييمات البشرية.
في توليد السؤال، يجب أن يكون السؤال الناتج يرتبطا جيدا وغالبا ما يتعلق بالإجابة بمثابة المدخلات. استمتعت أساليب الجيل العصبي في الغالب بالدليل التوزيعي للكلمات كإجراءات ذات معنى وتوليد أسئلة واحدة في وقت واحد. في هذه الورقة، نستكشف إمكانية الترميزات المستندة إلى النماذج والمزيد من الروائح المحبوسة، مثل تمثيلات الشخصية أو الكلمات الفرعية لجيل السؤال. نبدأ من هندسة SEQ2SEQ النموذجية باستخدام Word Ageddings المقدمة من De Kuthy et al. (2020)، الذين يولدون أسئلة من النص بحيث الإجابة المقدمة في مبارات نص الإدخال ليس فقط في معنى ولكن أيضا في شكل، تلبية متطابقة إجابة الأسئلة. نظهر أن النماذج المدربة على الطابع والتمثيلات الفرعية تتفوق بشكل كبير على النتائج المنشورة بناء على embeddings Word، وتقوم بذلك مع عدد أقل من المعلمات. نهجنا يلغي مشكلتين مهمتين للنهج القائم على الكلمة: ترميز الكلمات النادرة أو غير المفردات والاستبدال غير الصحيح للكلمات مع تلك ذات الصلة بالتنسيق. يحسن النموذج المستند إلى الطابع بشكل كبير على النتائج المنشورة، سواء من حيث درجات بلو واعتبار جودة السؤال الذي تم إنشاؤه. يتجاوز المهمة المحددة، تضيف هذه النتيجة إلى الأدلة التي تزن تمثيلات مختلفة من النماذج والمعنى لمهام معالجة اللغة الطبيعية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا