ترغب بنشر مسار تعليمي؟ اضغط هنا

تحسين جيل وتقييم القصص البصرية عبر الاتساق الدلالي

Improving Generation and Evaluation of Visual Stories via Semantic Consistency

353   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعتبر تصور القصة مهمة غير مسجلة تقع عند تقاطع العديد من الاتجاهات البحثية المهمة في كل من رؤية الكمبيوتر ومعالجة اللغات الطبيعية. في هذه المهمة، نظرا لسلسلة من التسميات التوضيحية باللغة الطبيعية التي تنشأ قصة، يجب أن يولد الوكيل سلسلة من الصور التي تتوافق مع التسميات التوضيحية. قدم العمل السابق نماذج تائحة تكرار تتفوق نماذج توليف النص إلى الصورة في هذه المهمة. ومع ذلك، هناك مجال لتحسين الصور التي تم إنشاؤها من حيث الجودة البصرية والتماسك والأهمية. نقدم عددا من التحسينات إلى نهج النمذجة السابقة، بما في ذلك (1) إضافة إطار تعليمي مزدوج يستخدم تقسيم الفيديو لتعزيز المحاذاة الدلالية بين القصة والصور التي تم إنشاؤها، (2) آلية تحويل النسخ المتوسطة تصور القصة، و (3) من المحولات المستندة إلى مارت إلى التفاعلات المعقدة بين الإطارات. نقدم دراسات الاجتثاث لإظهار تأثير كل تقنيات من هذه التقنيات على القوة المنتجة للنموذج لكل من الصور الفردية وكذلك السرد بأكمله. علاوة على ذلك، بسبب تعقيد الطبيعة والطبيعة الإندنية للمهمة، لا تعكس مقاييس التقييم القياسية الأداء بدقة. لذلك، فإننا نقدم أيضا استكشاف مقاييس التقييم للنموذج، ركز على جوانب الإطارات التي تم إنشاؤها مثل وجود / جودة الشخصيات الناتجة، والأهمية التعيينات، وتنوع الصور التي تم إنشاؤها. نقدم أيضا تجارب الارتباط لمقاييسنا الآلية المقترحة مع التقييمات البشرية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

على الرغم من إظهار قيم واعدة للتطبيقات المصب، فإن توليد السؤال والإجابة معا يتم استكشافها. في هذه الورقة، نقدم مهمة جديدة تستهدف توليد زوج الإجابة على الأسئلة من الصور المرئية. لا يتطلب عدم توليد أزواج حول الإجابات المتنوعة فقط ولكن أيضا الحفاظ على ا لاتساق منهم. نحن ندرس نماذج جيل مختلفة لهذه المهمة واقتراح ثلاث نماذج: نموذج خط الأنابيب، النموذج المشترك، النموذج المتسلسل. نحن ندمج الاستدلال الاختلافي في هذه النماذج لتحقيق التنوع والاتساق. ونحن نقترح أيضا تقدير تمثيل المنطقة ومحاذاة الاهتمام لتحسين الاتساق أكثر. ونحن أخيرا وضع مقيم كقيط كمي للاتساق. نحن نقوم بالتحقق من نهجنا على معيارين، VQA2.0 و Visual-7W، من خلال تقييم التنوع والاتساق يدويا يدويا. تظهر النتائج التجريبية فعالية نماذجنا: يمكن أن تولد أزواج متنوعة أو متسقة. علاوة على ذلك، يمكن استخدام هذه المهمة لتحسين جيل السؤال المرئي والإجابة على السؤال المرئي.
إن أنظمة الحوار المحددة مع نماذج لغة كبيرة تولد ردود متماسكة محليا، ولكن تفتقر إلى السيطرة الجميلة على الردود اللازمة لتحقيق أهداف محددة.تتميز طريقة واعدة للسيطرة على جيل الاستجابة جيل يستند إلى Exemplar، حيث تحرير النماذج تحرير الردود المثالية التي يتم استرجاعها من بيانات التدريب، أو مكتوبة يدويا إلى أهداف مستوى الخطاب استراتيجيا، لتناسب سياقات حوار جديدة.نقدم نموذج توليد حوار يستند إلى Exemplar، EDGE، يستخدم الإطارات الدلالية الموجودة في ردود Exemplar لتوجيه جيل الاستجابة.نظير على أن السيطرة على توليد الحوار على أساس الإطارات الدلالية من النماذج يحسن تماسك الردود التي تم إنشاؤها، مع الحفاظ على المعنى الدلالي وأهداف المحادثة الموجودة في ردود مثالية.
في التطبيقات العملية للجدل الدلالي، نريد في كثير من الأحيان تغيير سلوك المحلل بسرعة، مثل تمكينه من التعامل مع الاستعلامات في مجال جديد، أو تغيير تنبؤاتها على بعض الاستفسارات المستهدفة. على الرغم من أنه يمكننا إدخال أمثلة تدريبية جديدة تظهر السلوك الم ستهدف، فإن آلية سن تغييرات السلوكية دون إعادة تدريب طراز باهظ الثمن سيكون أفضل. تحقيقا لهذه الغاية، نقترح المحلل الدلالي القابل للتحكم عبر استرجاع Exemplar (Casper). نظرا لاستعلام المدخلات، يسترد المحلل تحليل الخرزات ذات الصلة من مؤشر استرجاع، ويعززها إلى الاستعلام، ثم يطبق نموذج SEQ2SEQ Generative لإنتاج تحليل إخراج. تعمل EXEMPLARS كآلية مراقبة على النموذج العام العام: من خلال معالجة مؤشر الاسترجاع أو كيفية إنشاء الاستعلام المعزز، يمكننا معالجة سلوك المحلل المحلل. على مجموعة بيانات MTOP، بالإضافة إلى تحقيق أحدث من الفن في الإعداد القياسي، نظهر أن كاسبر يمكن أن تحليل الاستعلامات في مجال جديد، أو تكييف التنبؤ باتجاه الأنماط المحددة، أو التكيف مع مخططات الدلالات الجديدة دون الحاجة إلى الحاجة إلى مزيد من إعادة تدريب النموذج.
الاتساق الملخص للنموذج --- أي ثابت سلوكه بموجب استطلاعات المعنى المحفوظة في مدخلاته --- هو ممتلكات مرغوبة للغاية في معالجة اللغة الطبيعية.في هذه الورقة ندرس السؤال: نماذج اللغة المحددة مسبقا (PLMS) بما يتفق فيما يتعلق بالمعرفة الواقعية؟تحقيقا لهذه ال غاية، نقوم بإنشاء Pararel?، وهو مورد عالي الجودة لاستعلام النمط الإنجليزي على الطراز على الطراز.أنه يحتوي على ما مجموعه 328 صالة لمدة 38 علامة.باستخدام pararel?، نوضح أن اتساق جميع اللقطات المقبلات التي نقوم بتجربةها سيئة --- على الرغم من وجود تباين كبير بين العلاقات.يقترح تحليلنا للمساحات التمثيلية لمحلات PLMS أن لديهم بنية سيئة ولا تكون مناسبة حاليا لتمثيل المعرفة بقوة.أخيرا، نقترح طريقة لتحسين الاتساق النموذجي وتظهر تجريبيا فعاليته
تعد أنظمة التعرف السمعية البصرية التي تعتمد على صوت و حركة شفاه المتكلم من أهم أنظمة التعرف على الكلام. و قد تم تطوير العديد من التقنيات المختلفة من حيث الطرائق المستخدمة في استخراج السمات و طرائق التصنيف. يقترح البحث إنشاء نظام للتعرف على الكلمات المعزولة بالاعتماد السمات السمعية المستخرجة من فيديوهات منطوقة لكلمات باللغة العربية في بيئة خالية من الضجيج، و من ثم إضافة مكون الطاقة و المشتقات التفاضلية في مرحلة استخراج السمات لخوارزمية معاملات تردد الميل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا