ترغب بنشر مسار تعليمي؟ اضغط هنا

تحتوي نماذج الترجمة الآلية على مفردات منفصلة واستخدام تقنيات تجزئة الكلمات الفرعية لتحقيق المفردات المفتوحة.يعتمد هذا النهج على تسلسل Unicode متسق وصحيح، ويجعل النماذج عرضة للتدهور من الأنواع المشتركة من الضوضاء والاختلاف.بدافع من متانة معالجة اللغات البشرية، نقترح استخدام تمثيلات نصية بصرية، والذي يتم الاستغناء عن مجموعة محدودة من Adgeddings النصية لصالح المفردات المستمرة التي تم إنشاؤها عن طريق معالجة النص المنصوص عليه بصريا مع Windows Sliding Windows.نظهر أن النماذج باستخدام نهج تمثيلات النص المرئي أو مطابقة أداء النماذج النصية التقليدية على مجموعات البيانات الصغيرة والأكبر.الأهم من ذلك، الأهم من ذلك، توضح النماذج ذات المدينات البصرية متانة كبيرة لأنواع الضوضاء المتنوعة، وتحقيق على سبيل المثال، 25.9 بلو على شخصية مسموعة باللغة الألمانية - المهمة الإنجليزية حيث تتحلل نماذج الكلمات الفرعية إلى 1.9.
الحوار المرئي صعبا لأنه يحتاج إلى الإجابة على سلسلة من الأسئلة المتماسكة بناء على فهم البيئة المرئية. كيفية الأرض الكائنات المرئية ذات الصلة هي واحدة من المشاكل الرئيسية. تستخدم الدراسات السابقة السؤال والتاريخ للحضور في الصورة وتحقيق أداء مرضي، في ح ين أن هذه الطرق ليست كافية لتحديد الكائنات المرئية ذات الصلة دون أي إرشادات. يحظر التأريض غير المناسب للكائنات المرئية أداء نماذج الحوار المرئي. في هذه الورقة، نقترح نهجا جديدا لتعلم الكائنات المرئية البرية للحوار المرئي، والذي يستخدم آلية تأريض كائنات مرئية جديدة حيث يتم استخدام كل من التوزيعات السابقة والخلفية على الكائنات المرئية لتسهيل التأريض البصرية. على وجه التحديد، يتم استنتاج التوزيع الخلفي على الكائنات المرئية من كل من السياق (التاريخ والأسئلة) والأجوبة، وتضمن التأريض المناسب للأشياء المرئية أثناء عملية التدريب. في هذه الأثناء، يتم استخدام توزيع مسبق، الذي يستنتج من السياق فقط، لتقريب التوزيع الخلفي بحيث يمكن أن تكون الكائنات المرئية المناسبة هي التأريض حتى بدون إجابات أثناء عملية الاستدلال. النتائج التجريبية على مجموعة بيانات V0.9 و V1.0 Visdial تثبت أن نهجنا يحسن النماذج القوية السابقة في كل من الإعدادات الإدارية والتمييزية من خلال هامش هامش.
على الرغم من إظهار قيم واعدة للتطبيقات المصب، فإن توليد السؤال والإجابة معا يتم استكشافها. في هذه الورقة، نقدم مهمة جديدة تستهدف توليد زوج الإجابة على الأسئلة من الصور المرئية. لا يتطلب عدم توليد أزواج حول الإجابات المتنوعة فقط ولكن أيضا الحفاظ على ا لاتساق منهم. نحن ندرس نماذج جيل مختلفة لهذه المهمة واقتراح ثلاث نماذج: نموذج خط الأنابيب، النموذج المشترك، النموذج المتسلسل. نحن ندمج الاستدلال الاختلافي في هذه النماذج لتحقيق التنوع والاتساق. ونحن نقترح أيضا تقدير تمثيل المنطقة ومحاذاة الاهتمام لتحسين الاتساق أكثر. ونحن أخيرا وضع مقيم كقيط كمي للاتساق. نحن نقوم بالتحقق من نهجنا على معيارين، VQA2.0 و Visual-7W، من خلال تقييم التنوع والاتساق يدويا يدويا. تظهر النتائج التجريبية فعالية نماذجنا: يمكن أن تولد أزواج متنوعة أو متسقة. علاوة على ذلك، يمكن استخدام هذه المهمة لتحسين جيل السؤال المرئي والإجابة على السؤال المرئي.
بالنظر إلى أهمية بناء أسئلة حوار مرئي جيد (VD)، يدرس العديد من الباحثين موضوعا بموجب إعداد لعبة تخمين صورة Q-Bot-A-Bot، حيث يحتاج السائل إلى رفع سلسلة من الأسئلة لجمع معلومات غير معلنة صورة. على الرغم من التقدم المحرز في التعلم الإشراف (SL) وتعزيز ال تعزيز (RL)، فإن القضايا لا تزال موجودة. أولا، لا توفر الأساليب السابقة إرشادات صريحة وفعالة للمسائل لتوليد أسئلة ذات صلة وبصراحية. ثانيا، يتم إعاقة تأثير RL بواسطة مكون غير كفء، أي خيال، الذي يصنع تنبؤات الصور بناء على الحوار التي تم إنشاؤها وتعيين المكافآت وفقا لذلك. لتعزيز مسائل VD: 1) نقترح اسئلة محسنة للكيان (REEQ) التي تولد أسئلة تحت إشراف الكيانات ذات الصلة وتعلم استراتيجية الاستجواب القائمة على الكيان من الحوار البشرية؛ 2) نقترح خيال معدني قوي ويتم تحسينه ل VD خاصة. تظهر النتائج التجريبية على مجموعة بيانات V1.0 Visdial أن نهجنا يحقق أداء حديثة على كل من مهمة تخمين الصورة وتنوع السؤال. تتحقق الدراسة البشرية مزيدا من أن نموذجنا يولد أسئلة أكثر متعلقة بصريا ومفيدة ومتماسكة.
نماذج الترجمة الآلية العصبية حساسة للضوضاء في نصوص الإدخال، مثل كلمات أخطاء إملائية والإنشاءات غير الرسمية.تفشل تقنيات المتانة الحالية عموما عند مواجهة أنواع غير مرئية من الضوضاء وأدائها تتحلل من النصوص النظيفة.في هذه الورقة، نركز على ثلاثة أنواع من الضوضاء الواقعية التي يتم إنشاؤها عادة من قبل البشر وإدخال فكرة السياق البصري لتحسين متانة الترجمة للنصوص الصاخبة.بالإضافة إلى ذلك، نصف نظام تدريب تصحيح خطأ رواية يمكن استخدامه كمهمة مساعدة لزيادة تحسين متانة الترجمة.تظهر تجارب الترجمة الإنجليزية والفرنسية والإنجليزية - الألمانية أن كل من مكونات تصحيح الأخطاء المتعددة الوسائط والخروج تعمل على تحسين متانة النموذج للنصوص الصاخبة، بينما لا تزال تحتفظ بجودة الترجمة على النصوص النظيفة.
يتم تعريف المنزول على أنه المعرفة التي يوافق عليها الجميع. ومع ذلك، فإن أنواع معينة من المعرفة المنطقية مرتبطة بالثقافة والمواقع الجغرافية ويتم تقاسمها فقط محليا. على سبيل المثال، تختلف مشاهد مراسم الزفاف عبر المناطق الناجمة عن الجمارك المختلفة التي تتأثر بالعوامل التاريخية والدينية. ومع ذلك، حذفت هذه الخصائص الإقليمية عموما في العمل السابق. في هذه الورقة، نقوم بإنشاء مجموعة بيانات منطق مرئية للبصرية (GD-VCR) لاختبار قدرة النماذج في الرؤية واللغة على فهم المنطقية الثقافية والرائعة. على وجه الخصوص، نقوم بدراسة نماذج للرؤية واللغدية التي من بين الفنون، و Visualbert و Vilbert تدربت على VCR، وهو معيار قياسي مع الصور في المقام الأول من المناطق الغربية. بعد ذلك تقييم مدى جودة أن تعميم النماذج المدربة للإجابة على الأسئلة في GD-VCR. نجد أن أداء كلا النماذج للمناطق غير الغربية بما في ذلك شرق آسيا وجنوب آسيا وأفريقيا أقل بكثير من تلك الخاصة بالمنطقة الغربية. نقوم بتحليل الأسباب الكامنة وراء تباين الأداء وتجد أن فجوة الأداء أكبر على أزواج ضمنيا: 1) تشعر بالقلق من السيناريوهات المتعلقة بالثقافة، على سبيل المثال، حفلات الزفاف، الأنشطة الدينية، والمهرجانات؛ 2) تتطلب منطق المنطقي الجغرافي الرفيع المستوى بدلا من التصور والاعتراف بالترتيب المنخفض. يتم إصدار DataSet و Code في https://github.com/wadeyin9712/gd-vcr.
في حين أن الكثير من الأبحاث قد تم في توليف الرسائل النصية إلى صورة، فقد تم إجراء القليل من العمل لاستكشاف استخدام الهيكل اللغوي لنص المدخلات. هذه المعلومات أكثر أهمية بالنسبة لتصور القصة لأن مدخلاتها لها هيكل سرد صريح يحتاج إلى ترجمة إلى تسلسل الصورة (أو قصة مرئية). أظهر العمل المسبق في هذا المجال أن هناك مجالا واسعا للتحسين في تسلسل الصور الناتج من حيث الجودة البصرية والاتساق والأهمية. في هذه الورقة، نستكشف أولا استخدام أجهزة تحليل الدائرة باستخدام بنية متكررة قائمة على المحولات لترميز المدخلات المهيكلة. ثانيا، نشجع المدخلات المنظمة مع معلومات المنطقية ودراسة تأثير هذه المعرفة الخارجية على جيل القصة البصرية. ثالثا، نحن أيضا دمج البنية المرئية عبر المربعات المحيطة والتسمية الكثيفة لتوفير ملاحظات حول الأحرف / الكائنات في الصور التي تم إنشاؤها داخل إعداد تعليمي مزدوج. نظهر أن نماذج التسمية الكثيفة غير الرفية التي تم تدريبها على جينوم المرئي يمكن أن تحسن الهيكل المكاني للصور من مجال مستهدف مختلف دون الحاجة إلى ضبط جيد. نحن ندرب طراز النموذج باستخدام فقدان داخل القصة داخل القصة (بين الكلمات والمناطق الفرعية للصور) وإظهار تحسينات كبيرة في الجودة البصرية. أخيرا، نحن نقدم تحليلا للمعلومات اللغوية والمكانية.
في مهمة الحوار المرئي تخمين؟!يحتفظ لاعبان بتاريخ حوار لتحديد كائن سري في صورة.competionally، يتم تصميم هذا باستخدام وحدة توليد سؤال ووحدة تخييس لدور السائل ونموذج الرد على الأوراكل، والرد على الأسئلة التي تم إنشاؤها.هذا يثير سؤال: ما هو خطر وجود نموذ ج Oracle غير كامل؟نحن هنا نقدم العمل في إحراز تقدم في دراسة تأثير نماذج الإجابة المختلفة في أسئلة البشرية التي تم إنشاؤها في التخمين ؟!..نظهر أن الوصول إلى إجابات عالية الجودة له تأثير مباشر على مهمة التخمين للحوار البشري وتجادل أن الإجابات الأفضل يمكن أن تساعد في تدريب نماذج توليد الأسئلة الأفضل.
أصبحت ميمات الإنترنت في كل مكان في شبكات وسائل التواصل الاجتماعي اليوم.نظرا لشعبيةهم، فهي أيضا وضع التعبير المستخدم على نطاق واسع لنشر التضليل عبر الإنترنت.نظرا لأن الميمات تتكون من مزيج من النص والصورة، فإنها تتطلب نهجا متعدد الوسائط للتحليل التلقائ ي.في هذه الورقة، نصف مساهمتنا في اكتشاف Semeval-2021 من تقنيات الاقتران في النصوص والصور المهمة.نقترح نظام تعليمي متعدد الوسائط، مما يشتمل على membeddings ''، viz.ميزات النص المشتركة والرؤية من خلال الجمع بينها مع تجمع bilinear المدمجة، لتحديد تقنيات التهاضة الخطابية والنفسية تلقائيا.تظهر النتائج التجريبية أن النظام المقترح يتفوق باستمرار على خط الأساس في المسابقة، وتحقق أفضل درجة ماكرو F1 و 14 درجة 14 درجة مئوية من جميع المشاركين.
تصف هذه الورقة النظام المستخدم من قبل فريق Aimh للتعامل مع المهمة السامية 6. نقترح نهج يعتمد على بنية بناء على نموذج المحول لمعالجة المحتوى متعدد الوسائط (النص والصور) في الميمات.بنية لدينا، تسمى DVTT (محول نصي مرئي مزدوج)، تقترب من المهام الفرعية 1 و 3 من المهمة 6 كمشاكل تصنيف متعددة التسميات، حيث تتم معالجة نص و / أو صور ميمي، واحتمالات وجود كل إقناع محتمليتم إرجاع التقنية نتيجة لذلك.يستخدم DVTT شبكتان كاملا من المحولات التي تعمل على النص والصور مشروطة بشكل متبادل.يعمل أحد الطرائقين كأداة رئيسية والثانية التدخل في إثراء أول واحد، وبالتالي الحصول على طريقتين مميزين للعمل.يتم دمج مخرجات المحولاتين عن طريق حساب احتمالات الاستفادة من كل ملصق ممكن، ويتم تدريب الشبكة الشاملة على نهاية إلى نهاية مع فقدان انتروبيا ثنائي.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا