ترغب بنشر مسار تعليمي؟ اضغط هنا

مستوى التعليم عبر مستوى الكيان يحسن الترجمة متعددة الوسائط

Entity-level Cross-modal Learning Improves Multi-modal Machine Translation

270   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف الترجمة متعددة الوسائط (MMT) إلى تحسين أداء الترجمة من خلال دمج المعلومات المرئية. معظم الدراسات الاستفادة من المعلومات المرئية من خلال دمج ميزات الصورة العالمية كمدخل إضافي أو فك تشفير من خلال حضور المناطق المحلية ذات الصلة في الصورة. ومع ذلك، فإن هذا النوع من استخدام المعلومات المرئية يجعل من الصعب معرفة كيفية تساعد طريقة المرئية ولماذا يعمل. مستوحاة من نتائج (الاقتباس) التي تعد الكيانات أكثر تفكيا في الصورة، نقترح نهجا للتعلم الصريح عبر مستوى الكيانات يهدف إلى زيادة تمثيل الكيان. على وجه التحديد، يتم تأطير النهج كهجوم لإعادة الإعمار الذي يعيد إدخال المدخلات النصية الأصلية من المدخلات متعددة الوسائط يتم استبدال الكيانات بالكيانات بالميزات المرئية. بعد ذلك، يتم استخدام إطار عمل متعدد المهام في الجمع بين مهمة الترجمة ومهمة إعادة الإعمار للاستفادة الكاملة من تعلم تمثيل الكيان عبر الوسائط. تثبت التجارب الواسعة أن نهجنا يمكن أن يحقق أداء قابلا للمقارنة أو أفضل من النماذج الحديثة. علاوة على ذلك، يوضح تحليلنا المتعمق كيفية تحسين المعلومات المرئية الترجمة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعاني ترجمة الآلات العصبية التي تعتمد على نص ثنائي اللغة مع بيانات تدريبية محدودة من التنوع المعجمي، والتي تقلل من دقة ترجمة الكلمات النادرة وتقلص من تعميم نظام الترجمة.في هذا العمل، نستخدم التسميات التوضيحية المتعددة من مجموعة بيانات متعددة 30 ألفا لزيادة التنوع المعجمي بمساعدة النقل عبر اللغات للمعلومات بين اللغات في إعداد متعدد اللغات.في هذا الإعداد المتعدد اللغات والعددية، فإن إدراج الميزات المرئية يعزز جودة الترجمة بهامش كبير.تؤكد الدراسة التجريبية أن نهجنا متعدد الوسائط المقترح يحقق مكسبا كبيرا من حيث النتيجة التلقائية ويظهر متانة في التعامل مع ترجمة الكلمات النادرة بذريعة مهام الترجمة الهندية والتيلجو.
شروط الارتفاع استخراج (أكلت) وتصنيف معنويات الجانب (ASC) هي مهمتان أساسيتان من المهام الفرعية الأساسية والغرامة في تحليل المعنويات على مستوى الجانب (ALSA). في التحليل النصي، تم استخراج المشترك استخراج كل من شروط الارتفاع وأقطاب المعنويات كثيرا بسبب ط لبات أفضل من المهمة الفرعية الفردية. ومع ذلك، في السيناريو متعدد الوسائط، تقتصر الدراسات الحالية على التعامل مع كل مهمة فرعية بشكل مستقل، والتي تفشل في نموذج العلاقة الفطرية بين الأهدافين أعلاه وتتجاهل التطبيقات الأفضل. لذلك، في هذه الورقة، نحن أول من يؤدي ذلك بشكل مشترك أداء أكلت متعددة الوسائط (ماتي) ومتعدد الوسائط (MASC)، ونقترح نهج التعلم المشترك متعدد الوسائط مع اكتشاف العلاقات عبر الوسائط المساعد للمتوسطة تحليل المعنويات على مستوى الجانب (Malsa). على وجه التحديد، نقوم أولا بإنشاء وحدة اكتشاف علاقة نصية إضافية للكشف عنها للتحكم في الاستغلال المناسب للمعلومات المرئية. ثانيا، نعتمد إطار التسلسل الهرمي لسجل الاتصال متعدد الوسائط بين رفيقه ومتك اليومي، بالإضافة إلى توجيه بصري منفصل لكل وحدة فرعية. أخيرا، يمكننا الحصول على جميع أطريات المعنويات على مستوى جانب الجسبي تعتمد على الجوانب المحددة المستخرجة بشكل مشترك. تظهر تجارب واسعة فعالية نهجنا مقابل الأساليب النصية المشتركة والخط الأنابيب ونهج متعددة الوسائط.
أظهرت التقدم المحدد في استخدام مكونات الاسترجاع على مصادر المعرفة الخارجية نتائج رائعة لمجموعة متنوعة من المهام المصب في معالجة اللغة الطبيعية.هنا، نستكشف استخدام مصادر المعرفة الخارجية غير منتهية للصور وتستياؤها المقابلة لتحسين الإجابة على السؤال ال مرئي (VQA).أولا، نحن ندرب نموذج محاذاة جديدة لتضمين الصور والتعليقات التوضيحية في نفس الفضاء، والذي يحقق تحسنا كبيرا في الأداء على استرجاع التعليق على الصورة W.r.T.طرق مماثلة.ثانيا، نظهر أن المحولات متعددة الوسائط متعددة الاسترجاع باستخدام نموذج المحاذاة المدربين يحسن النتائج على VQA عبر خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط خطوط طويلة.كلنا إجراء تجارب مكثفة لإثبات وعد هذا النهج، وفحص طلبات جديدة لوقت الاستدلال مثل مؤشرات التبديلات الساخنة.
نحن نبحث في التمثيلات التي تعلمناها عن طريق الرؤية ونماذج اللغة في المهام التي تتطلب التفكير العلائقي.مع التركيز على مشكلة تقييم الحجم النسبي للكائنات في السياقات البصرية مجردة، نحلل منطق واحد وخطوتين.بالنسبة لهذا الأخير، نبني مجموعة بيانات جديدة من مشاهد ثلاثية وتحدد مهمة تتطلب منطق على مستوى الصور الفردية وعبر الصور في مشهد.نحن نبذل تمثيلات النموذج المستفادة باستخدام مصنفات التشخيص.تظهر تجاربنا أن الهندسة المعاد المسبدة مسبقا القائمة على المحولات يمكن أن تؤدي من التفكير العلائقي المستوى الأعلى، وهي قادرة على تعلم تمثيلات المهام والبيانات الجديدة التي تختلف عن ما شوهد في الاحتجاج.
أثبتت الترجمة الآلية النموذجية على مستوى المستند (NMT) أنها ذات قيمة عميقة لفعاليتها في التقاط المعلومات السياقية. ومع ذلك، فإن الأساليب الحالية 1) تعرض ببساطة تمثيل أحكام السياق دون تمييز عملية التفكير بين الجملة؛ و 2) تغذية السياقات المستهدفة في ال حقيقة كدخلات إضافية في وقت التدريب، وبالتالي تواجه مشكلة تحيز التعرض. ونحن نقترب من هذه المشاكل مع إلهام من السلوك البشري - المترجمين البشري يظهر عادة مشروع ترجمة في أذهانهم وتنقيحها تدريجيا وفقا للمنطق في الخطاب. تحقيقا لهذه الغاية، نقترح محول رواية متعددة القفز (MHT) الذي يوفر قدرات NMT على نموذج عملية التحرير والتفكير الذي يشبه الإنسان بشكل صريح. على وجه التحديد، يخدم نموذجنا الترجمة على مستوى الجملة كمسودة ويحدد خصوصياتها بشكل صحيح من خلال حضور جمل متعددة غير متجانسة تكرارا. توضح التجارب على أربعة مهام ترجمة مستندات مستعملة على نطاق واسع أن طريقتنا يمكن أن تحسن بشكل كبير من أداء الترجمة على مستوى المستندات ويمكنها معالجة ظواهر الخطاب، مثل خطأ COMARACARE ومشكلة Polysemy.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا