ترغب بنشر مسار تعليمي؟ اضغط هنا

تهدف الترجمة متعددة الوسائط (MMT) إلى تحسين أداء الترجمة من خلال دمج المعلومات المرئية. معظم الدراسات الاستفادة من المعلومات المرئية من خلال دمج ميزات الصورة العالمية كمدخل إضافي أو فك تشفير من خلال حضور المناطق المحلية ذات الصلة في الصورة. ومع ذلك، فإن هذا النوع من استخدام المعلومات المرئية يجعل من الصعب معرفة كيفية تساعد طريقة المرئية ولماذا يعمل. مستوحاة من نتائج (الاقتباس) التي تعد الكيانات أكثر تفكيا في الصورة، نقترح نهجا للتعلم الصريح عبر مستوى الكيانات يهدف إلى زيادة تمثيل الكيان. على وجه التحديد، يتم تأطير النهج كهجوم لإعادة الإعمار الذي يعيد إدخال المدخلات النصية الأصلية من المدخلات متعددة الوسائط يتم استبدال الكيانات بالكيانات بالميزات المرئية. بعد ذلك، يتم استخدام إطار عمل متعدد المهام في الجمع بين مهمة الترجمة ومهمة إعادة الإعمار للاستفادة الكاملة من تعلم تمثيل الكيان عبر الوسائط. تثبت التجارب الواسعة أن نهجنا يمكن أن يحقق أداء قابلا للمقارنة أو أفضل من النماذج الحديثة. علاوة على ذلك، يوضح تحليلنا المتعمق كيفية تحسين المعلومات المرئية الترجمة.
تجسد السخرية والشعور من عدم اليقين الجوهري للإدراك الإنساني، مما يجعل الكشف المشترك عن السخرية متعددة الوسائط ومشاعر مهمة صعبة. في ضوء مزايا الاحتمالات الكمومية (QP) في نمذجة هذا الشكوك، تستكشف هذه الورقة إمكانات QP كإطار رياضي وتقترح إطارا للتعليم م تعدد المهام المدفوعة من QP (QPM). ينطوي إطار QPM على تشفير تمثيل متعدد الوسائط متعدد الأوضاع، وهي فرعية فرعية تشبه الاصطدام الكمومية وآلية قياس الكم. يتم ترميز كل الكلام متعدد الوسائط (على سبيل المثال، النصي، المرئي البصري) لأول مرة كتراكبة كمية لمجموعة من المصطلحات الأساس باستخدام تمثيل ذو قيمة معقدة. بعد ذلك، يرفع الشبكة الفرعية التي تشبه الكتابة الكمومية تكوين الدولة الكم وتدخل الكم لنموذج التفاعل السياقي بين الكلام المجاورة والارتباطات عبر الطرائق على التوالي. أخيرا، يتم إجراء القياسات الكمية غير المتوافقة على التمثيل المتعدد الوسائط لكل كلام لإحداث النتائج الاحتمالية من السخرية والاعتراف بالمشاعر. تظهر النتائج التجريبية أن نموذجنا يحصل على أداء حديثة.
لقد أثبت العمل الحديث في وكلاء المحادثة المفتوحة على أن التحسينات الكبيرة في الإنسانية وتفضيل المستخدم يمكن تحقيقها عبر التحجيم الضخم في كل من بيانات التدريب المسبق وحجم النموذج (Adiwardana et al.، 2020؛ الأسطوانة وآخرون، 2020). ومع ذلك، إذا كنا نريد بناء عملاء مع قدرات تشبه الإنسان، يجب علينا توسيع نطاق التعامل مع النص فقط. موضوع مهم للغاية هو القدرة على رؤية الصور والتواصل حول ما ينظر إليه. بهدف الحصول على البشر للانخراط في حوار متعدد الوسائط، نحقق في مجمع المكونات من وكلاء حوار الوكالة المفتوحة للحكومة من بين الفنون من نماذج الرؤية الحديثة. نحن ندرس دمج مخططات مختلفة من صور الصور واستراتيجيات التدريب المسبق على نطاق واسع على المجال وضبط النطاق، وتظهر أن طرازنا الأفضل الناتج يفوق النماذج الحالية القوية في حوار متعدد الوسائط أثناء التنفيذ في وقت واحد وكذلك سلفها (النص فقط) (الأسطوانة وآخرون، 2020) في محادثة قائمة على النص. إننا كذلك تحقيق وإدماج مكونات السلامة في نموذجنا النهائي، وإظهار أن هذه الجهود لا تقلل من الأداء النموذجي فيما يتعلق بتفضيل الإنسان.
هناك حدود مثيرة في فهم اللغة الطبيعية (NLU) وتوليد (NLG) يدعو (NLG) نماذج لغة (Vision-and) التي يمكن أن تصل إلى إمكانية الوصول إلى مستودعات المعرفة المنظم الخارجية بكفاءة. ومع ذلك، فإن العديد من قواعد المعرفة الموجودة تغطي فقط المجالات المحدودة، أو ت عاني من بيانات صاخبة، والأهم من ذلك كلها يصعب دمجها عادة في خطوط أنابيب اللغة العصبية. لملء هذه الفجوة، ونحن نطلق عرض المرئيات: رسم بياني لمعرفة عالية الجودة (كجم) والتي تشمل العقد مع المواد المتعددة اللغات والصور التوضيحية المتعددة، والعلاقات ذات الصلة بصريا. ونحن نطلق أيضا نموذج استرجاع متعدد الوسائط العصبي يمكنه استخدام الصور أو الجمل كمدخلات واسترداد الكيانات في كجم. يمكن دمج نموذج استرجاع متعدد الوسائط هذا في أي خط أنابيب نموذج (الشبكة العصبية). نحن نشجع مجتمع البحث على استخدام المرئيات لتعزيز البيانات و / أو كمصدر للتأريض، من بين الاستخدامات الأخرى الممكنة. تتميز المرئيات وكذلك نماذج استرجاع متعددة الوسائط متاحة للجمهور ويمكن تنزيلها في عنوان URL هذا: https://github.com/acercalixto/visualsem.
يستخدم النظورات الشائعات بشكل متزايد محتوى الوسائط المتعددة لجذب الاهتمام والثقة للمستهلكين الأخبار.على الرغم من أن مجموعة من نماذج الكشف عن الشائعات قد استغلت البيانات متعددة الوسائط، إلا أنها نادرا ما تنظر في العلاقات غير المتسقة بين الصور والنصوص. علاوة على ذلك، فشلوا أيضا في العثور على طريقة قوية لتحديد معلومات التناقض بين محتويات المنشورات ومعرفة الخلفية.بدافع من الحدس أن الشائعات أكثر عرضة للحصول على معلومات غير متناسق في دلالات، ويقترح شبكة متناسقة مزدوجة موجهة إلى المعرفة على المعرفة للكشف عن شائعات مع محتويات الوسائط المتعددة.يمكنه التقاط دلالات غير متناسقة على المستوى الشامل ومستوى المعرفة المحتوى في إطار واحد موحد.تثبت تجارب واسعة على مجموعات بيانات حقيقية في العالم الحقيقي أن اقتراحنا يمكن أن يتفوق على خطوط الأساس الحديثة.
أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال مرئي (VQA).أولا، نحن ندرب نموذج محاذاة جديدة لتضمين الصور والتعليقات التوضيحية في نفس الفضاء، والذي يحقق تحسنا كبيرا في الأداء على استرجاع التعليق على الصورة W.r.T.طرق مماثلة.ثانيا، نظهر أن المحولات متعددة الوسائط متعددة الاسترجاع باستخدام نموذج المحاذاة المدربين يحسن النتائج على VQA عبر خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط طويلة.كلنا إجراء تجارب مكثفة لإثبات وعد هذا النهج، وفحص طلبات جديدة لوقت الاستدلال مثل مؤشرات التبديلات الساخنة.
تعاني ترجمة الآلات العصبية التي تعتمد على نص ثنائي اللغة مع بيانات تدريبية محدودة من التنوع المعجمي، والتي تقلل من دقة ترجمة الكلمات النادرة وتقلص من تعميم نظام الترجمة.في هذا العمل، نستخدم التسميات التوضيحية المتعددة من مجموعة بيانات متعددة 30 ألفا لزيادة التنوع المعجمي بمساعدة النقل عبر اللغات للمعلومات بين اللغات في إعداد متعدد اللغات.في هذا الإعداد المتعدد اللغات والعددية، فإن إدراج الميزات المرئية يعزز جودة الترجمة بهامش كبير.تؤكد الدراسة التجريبية أن نهجنا متعدد الوسائط المقترح يحقق مكسبا كبيرا من حيث النتيجة التلقائية ويظهر متانة في التعامل مع ترجمة الكلمات النادرة بذريعة مهام الترجمة الهندية والتيلجو.
تقدم هذه الورقة الحل المقترح من قبل فريق 1213LI ل Subtask 3 في مهمة Semeval-2021: تحديد تقنيات الإقناع المتعددة المستخدمة في المحتوى متعدد الوسائط للميمي.استكشفنا مناهج مختلفة في استخراج ميزة الكشف عن ملصقات الإقناع.توظف نموذجنا النهائي النماذج المدر بة مسبقا بما في ذلك روبرتا و RESNET-50 كمستخلص ميزة للنصوص والصور، على التوالي، ويعتمد طبقة تضمين الملصقات مع آلية اهتمام متعدد الوسائط لقياس تشابه الملصقات مع المعلومات متعددة الوسائطمميزات الصمامات للتوقعات التسمية.تتفوقت طريقة لدينا المقترحة على الطريقة الأساسية المقدمة وتحقق 3 من 16 مشاركا مع 0.54860 / 0.22830 لعشرات مايكرو / ماكرو F1.
نهج فهم اللغة الحديثة في الرؤية اعتماد محول متعدد الوسائط قبل التدريب المسبق و Finetuning النموذج.يتعلم العمل المسبق تمثيلات الرموز النصية والسمات المرئية مع آليات الانهيارات المتقاطعة ويلتقط المحاذاة على أساس إشارات غير مباشرة.في هذا العمل، نقترح تع زيز آلية المحاذاة من خلال دمج هياكل الرسم البياني المشهد للصورة كجسر بين الطرطرين، والتعلم بأهداف جديدة للتناقض.في دراستنا الأولية حول الاسئلة المرئية التركيبية الصعبة الإجابة على المهمة، نظهر النهج المقترح يحقق نتائج محسنة، مما يدل على الإمكانات لتعزيز فهم لغة الرؤية.
تصبح التلخصات متعددة الوسائط ذات أهمية متزايدة لأنها هي أساس الإجابة على السؤال والبحث على شبكة الإنترنت والعديد من المهام الأخرى المصب الأخرى.ومع ذلك، فإن موادها التعليمية تفتقر إلى منظمة شاملة من خلال دمج الموارد من الطرائق المختلفة، مما يتخلف عن ا لتقدم المحرز البحثي في هذا المجال.في هذه الدراسة، نطلق عن مجموعة بيانات متعددة الوسائط واسعة النطاق تجمع الوثائق والملخصات والصور والتسميات التوضيحية ومقاطع الفيديو والصوتيات والمنصات واللقب باللغة الإنجليزية من CNN و Daily Mail.لدينا أفضل المعرفة لدينا، هذه هي المجموعة الأولى التي تدعم جميع الطرائق وتشمل ما يقرب من جميع أنواع المواد المتاحة في هذا المجتمع.بالإضافة إلى ذلك، نحن ابتكر نموذج خط الأساس استنادا إلى مجموعة البيانات الجديدة، والذي يستخدم آلية تقفيز تقترح حديثا على أساس النصوص.تتحقق النتائج التجريبية دور المساعدة الهامة للمعلومات الخارجية لتلخيص متعدد الوسائط.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا