ترغب بنشر مسار تعليمي؟ اضغط هنا

الترجمة السمعية البصرية من خلال NMT وترجمة في سلسلة Netflix `الفتيات الكابلات

Audiovisual Translation through NMT and Subtitling in the Netflix Series `Cable Girls'

409   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في السنوات الأخيرة، أعاد ظهور منصات تدفق مثل Netflix أو HBO أو Amazon Prime Prieet في مجال الترفيه، والذي يعتمد بشكل متزايد على أوضاع الروائح أو الصوت على الصوت. ومع ذلك، يعرف القليل عن الترجمة السمعية البصرية عند التعامل مع محركات الترجمة الآلية العصبية (NMT). تسعى ورقة العمل في العمل هذه إلى فحص الترجمات الإنجليزية من الحلقة الأولى للفتيات الكابلات الإسبانية سلسلة Netflix الشهيرة والنسخة المترجمة التي تم إنشاؤها بواسطة Google Translate و Deepl. سيساعدنا هذا التحليل في تحديد ما إذا كانت هناك اختلافات لغوية كبيرة يمكن أن تؤدي إلى سوء فهم أو صدمات ثقافية. تحقيقا لهذه الغاية، تتكون Corpus Compounts من البرنامج النصي الإسباني، المتاحة الترجمات الإنجليزية في Netflix والإصدار المترجم من البرنامج النصي. لتحليل البيانات، تم تصنيف الأخطاء بعد مصممة خطأ DQF / MQM وتم تقييمها باستخدام Metric Bleu التلقائي. تظهر النتائج أن محركات NMT تقدم ترجمات ذات نوعية جيدة، والتي بدورها قد تستفيد المترجمين الذين يعملون مع موارد الترفيه البصرية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحتاج أنظمة الإنتاج NMT عادة إلى خدمة مجالات المتخصصة التي لا تغطيها كوربيا كبيرة ومتاحة بسهولة بشكل مناسب.ونتيجة لذلك، غالبا ما يكون الممارسون نماذج غرضا عاما نماذج عامة على كل من المجالات التي يلبيها منظمةها.ومع ذلك، يمكن أن يصبح عدد المجالات كبيرا ، مما يتجمع مع عدد اللغات التي تحتاج إلى خدمة يمكن أن تؤدي إلى وضع أسطول غير قابل للحل من النماذج والمحافظة عليها.نقترح علامات متعددة الأبعاد، وهي طريقة لضبط نموذج NMT واحد على عدة مجالات في وقت واحد، وبالتالي تقليل تكاليف التطوير والصيانة بشكل كبير.نحن ندير تجارب حيث يقارن نموذج واحد MDT بشكل إيجابي لمجموعة من نماذج SOTA متخصصة، حتى عند تقييمها على المجال كانت تلك الأساس التي تم ضبطها بشكل جيد.إلى جانب بلو، نبلغ عن نتائج التقييم البشري.تعيش نماذج MDT الآن في Booking.com، مما يؤدي إلى تشغيل محرك MT الذي يخدم ملايين الترجمات يوميا في أكثر من 40 لغة مختلفة.
يمكن فهم لغات الموارد المنخفضة كنغات أكثر شحيحة، وأقل دراستها، أقل امتيازا، أقل شيوعا، والتي تكون أقل شيوعا والتي توجد فيها موارد أقل (Singh، 2008؛ Cieri et al.، 2016؛ Magueresse et al.، 2020) وبعد يركز البحث والتكنولوجيا لمعالجة اللغة الطبيعية (NLP) بشكل أساسي على تلك اللغات التي توجد بها مجموعات بيانات كبيرة متاحة. لتوضيح الاختلافات في توافر البيانات: هناك 6 ملايين مقالة في ويكيبيديا المتاحة للغة الإنجليزية، 2 مليون للهولندية، ومجرد 82 ألف للألبانية. تصبح قضية البيانات الشحيحة واضحة بشكل متزايد عندما تكون مجموعات البيانات المتوازية الكبيرة مطلوبة للتطبيقات مثل الترجمة الآلية العصبية (NMT). في هذا العمل، يمكننا التحقيق في أي مدى من الممكن الترجمة بين الألبانية (SQ) والهولندية (NL) مقارنة نموذج واحد إلى واحد (SQ↔AL)، نهج يستند إلى موارد منخفضة الموارد (الإنجليزية (EN) Pivot) والترجمة الصفرية بالرصاص (ZST) (جونسون وآخرون، 2016؛ نظام ماتوني وآخرون.، 2017). من تجاربنا، فإنه ينتج عن تفوق نموذج EN-PIVOT على حد سواء من طراز Zst المباشر. منذ غالبا ما تكون كميات صغيرة من البيانات الموازية متاحة لغات الموارد المنخفضة أو الإعدادات المنخفضة، أجريت التجارب باستخدام مجموعات صغيرة من بيانات NL↔SQ الموازية. بدا أن Zst هو أسوأ نماذج أداء. حتى عندما تمت إضافة البيانات الموازية المتاحة (nl↔sq)، أي في إعداد قليل من اللقطة (FST)، ظلت أسوأ نظام أداء وفقا ل Automatic (Bleu and Ter) والتقييم البشري.
تعد أنظمة التعرف السمعية البصرية التي تعتمد على صوت و حركة شفاه المتكلم من أهم أنظمة التعرف على الكلام. و قد تم تطوير العديد من التقنيات المختلفة من حيث الطرائق المستخدمة في استخراج السمات و طرائق التصنيف. يقترح البحث إنشاء نظام للتعرف على الكلمات المعزولة بالاعتماد السمات السمعية المستخرجة من فيديوهات منطوقة لكلمات باللغة العربية في بيئة خالية من الضجيج، و من ثم إضافة مكون الطاقة و المشتقات التفاضلية في مرحلة استخراج السمات لخوارزمية معاملات تردد الميل.
تصف هذه الورقة مساهمة Sebamat بمهمة مشتركة بين 2021 WMT Translation.باستخدام مجموعة أدوات الترجمة الآلية العصبية Marian، تم بناء أنظمة الترجمة القائمة على بنية محولات Google في كلا الاتجاهين في الكاتالونية - الإسبانية والبرتغالية - الإسبانية.تم تدريب الأنظمة على اثنين من إعدادات المعلمة مناقصة (أحجام مختلفة لمفردات لترميز زوج البايت) باستخدام العرض الموازي ولكن ليس فقط الشركة المقارنة منظمي المهام المشتركة.وفقا لنتائج التقييم الرسمية الخاصة بهم، تبين أن نظام Sebamat تنافسي مع الترتيب بين أفضل الفرق وعشرات بلو بين 38 و 47 لأزواج اللغة التي تنطوي على البرتغالية وبين 76 و 80 لأزواج اللغة التي تنطوي على الكاتالونية.
تصف هذه الورقة التقديم إلى المهمة المشتركة لترجمة الأخبار WMT 2021 بواسطة مجموعة الترجمة الآلية في UPC.الهدف من المهمة هو ترجمة الألمانية إلى الفرنسية (DE-FR) والفرنسية إلى الألمانية (FR-DE).يركز تقديمنا على ضبط نموذج مدرب مسبقا للاستفادة من بيانات أ حادية الأجل.نحن نغلق mbart50 باستخدام البيانات المصفاة، بالإضافة إلى ذلك، ندرب نموذج محول على نفس البيانات من الصفر.في التجارب، نظهر أن نتائج MBART50 الناشجة في 31.69 بلو ل DE-FR و 23.63 بلو FR-DE، مما يزيد من 2.71 و 1.90 بلو وفقا لذلك، مقارنة بالنموذج الذي نتدرب من الصفر.إن تقديمنا النهائي هو فرقة لهذين النموذجين، مما يزيد من 0.3 بلو ل FR-DE.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا