ترغب بنشر مسار تعليمي؟ اضغط هنا

نحو تقييم ترجمة الكلام التلقائي في وقت واحد من منظور التواصل

Towards the evaluation of automatic simultaneous speech translation from a communicative perspective

461   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في السنوات الأخيرة، اكتسبت الترجمة التلقائية للكلام في الكلام والكلام إلى النص زخما بفضل التقدم في الذكاء الاصطناعي، وخاصة في مجالات التعرف على الكلام والترجمة الآلية. يتم اختبار جودة هذه التطبيقات بشكل شائع مع المقاييس التلقائية، مثل بلو، في المقام الأول بهدف تقييم التحسينات في الإصدارات أو في سياق حملات التقييم. ومع ذلك، يعرف القليل عن كيفية إدراك إخراج هذه الأنظمة من قبل المستخدمين النهائيين أو كيف تقارن بين العروض البشرية في مهام تواصل مماثلة. في هذه الورقة، نقدم نتائج تجربة تهدف إلى تقييم جودة محرك ترجمة الكلام في الوقت الفعلي من خلال مقارنته بأداء المترجمين الفوريين المهنيين المهنيين. للقيام بذلك، نعتمد إطارا تم تطويره لتقييم المترجمين الفوريين البشري واستخدامه لإجراء تقييم يدوي على كل من العروض البشرية والآلة. في عيناتنا، وجدنا أداء أفضل للمترجمين الفوريين البشري من حيث الوضوح، في حين أن الجهاز ينفذ بشكل أفضل قليلا من حيث المعلوماتية. وتناقش قيود الدراسة والتحسينات المحتملة للإطار المختار. على الرغم من قيودها الجوهرية، فإن استخدام هذا الإطار يمثل خطوة أولى نحو منهجية ذات سن المراهقة على المستخدمين ومنهجية موجهة نحو الاتصال لتقييم ترجمة الكلام التلقائي في الوقت الفعلي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

منذ فترة طويلة انتهت التقييم التلقائي الموثوق لأنظمة الحوار بموجب بيئة تفاعلية. تحتاج بيئة مثالية لتقييم أنظمة الحوار، المعروفة أيضا باسم اختبار Turing، إلى إشراك التفاعل البشري، وعادة ما تكون غير متناول تجارب واسعة النطاق. على الرغم من أن الباحثين ق د حاولوا استخدام مقاييس مهام توليد اللغة (على سبيل المثال، الحيرة، بلو) أو بعض طرق التعزيز القائمة على الطراز (مثل تقييم التشغيل الذاتي) للتقييم التلقائي، إلا أن هذه الطرق تظهر فقط ارتباط ضعيف للغاية مع التقييم البشري الفعلي في التمرين. لكسر هذه الفجوة، نقترح إطارا جديدا يدعى لغز لتقدير درجات التقييم البشرية بناء على التقدم الأخير للتقييم خارج السياسات في التعلم التعزيز. يتطلب Enigma فقط حفنة من بيانات الخبرة التي تم جمعها مسبقا، وبالتالي لا تنطوي على تفاعل بشري مع السياسة المستهدفة أثناء التقييم، مما يجعل التقييمات التلقائية الممكنة. والأهم من ذلك أن Enigma هو خال من النموذج والأذرع لسياسات السلوك لجمع بيانات الخبرة، مما يخفف بشكل كبير الصعوبات التقنية في بيئات الحوار المعقدة النمذجة والسلوكيات البشرية. تظهر تجاربنا أن لغز تتفوق بشكل كبير على الأساليب الحالية من حيث الارتباط مع درجات التقييم البشري.
توضح هذه الورقة أنظمة ترجمة الكلام غير المتصلة بالإنترنت والمزخرفة التي تم تطويرها في Apptek for IWSLT 2021. يتضمن خضائه غير المتصل للنظام المباشر للنظام المباشر والنموذج المتكامل الخفي المزعوم، وهو أقرب إلى نظام Cascade ولكن تم تدريبهفي أزياء نهاية إلى نهاية، حيث تكون جميع الوحدات المتطرفة النماذج نهاية إلى نهاية نفسها.بالنسبة إلى القديس المتزامن، نجمع بين التعرف على الكلام التلقائي الهجينة بنهج ترجمة آلية يتم تعلم قرارات سياسة الترجمة من محاذاة الكلمة الإحصائية.مقارنة بالعام الماضي، نحسن الجودة العامة وتوفير مجموعة واسعة من مفاضات الجودة / الكمون، سواء بسبب طريقة تكبير البيانات مما يجعل نموذج MT قويا بأحجام قطع قطع متنوعة.أخيرا، نقدم طريقة تجزئة إخراج ASR إلى جمل تقدم أقل تأخير إضافي.
مع زيادة الصوت في مجال الاتصالات، فإن الحاجة إلى ترجمات حية في الأحداث متعددة اللغات هي أكثر أهمية من أي وقت مضى. في محاولة لأتمتة العملية، نهدف إلى استكشاف جدوى ترجمة الكلام في وقت واحد (Simulst) للترجمة الحية. ومع ذلك، فإن معدل توليد Word-For-Word من أنظمة Simulst غير مثلى لعرض الترجمات بطريقة مفهومة وقابلة للقراءة. في هذا العمل، نقوم بتكييف Simulst Systems للتنبؤ برصيد الترجمة إلى جانب الترجمة. بعد ذلك، نقترح وضع العرض الذي يستغل بنية الاستراحة المتوقعة عن طريق تقديم الترجمات في خطوط التمرير. قارنا وضعنا المقترح مع شاشة 1) Word-for-word و 2) في كتل، من حيث سرعة القراءة والتأخير. تظهر التجارب على ثلاث أزواج اللغة (en → IT، DE، FR) أن خطوط التمرير هي الوضع الوحيد الذي يحقق سرعة قراءة مقبولة مع الحفاظ على التأخير بالقرب من عتبة 4 ثانية. نجرب أن الترجمة الفورية للترجمات الحية القابلة للقراءة لا تزال تواجه تحديات، والثيقة هي ذات جودة ترجمة ضعيفة، واقتراح توجيهات بحث في المستقبل.
الترجمة المتزامنة هي مهمة تبدأ فيها الترجمة قبل انتهاء المتكلم من التحدث، لذلك من المهم أن تقرر متى تبدأ عملية الترجمة.ومع ذلك، فإن اتخاذ قرار بشأن قراءة المزيد من كلمات الإدخال أو بدء الترجمة من الصعب على أزواج اللغة مع أوامر كلمة مختلفة مثل اللغة ا لإنجليزية واليابانية.بدافع من مفهوم إعادة ترتيب المسبق، نقترح بضع قواعد قرارات بسيطة باستخدام تسمية التأسيس التالي المتوقع من خلال التنبؤ التسمي التأسيسي التدريجي.في تجارب على الترجمة الفورية الإنجليزية إلى اليابانية، الطريقة المقترحة تفوق خطوط الأساس في مفاضلة جودة الكمون.
اكتسبت النماذج المستندة إلى المحولات شعبية متزايدة تحقق الأداء الحديث في العديد من مجالات البحث بما في ذلك ترجمة الكلام. ومع ذلك، فإن التعقيد التربيعي للمحول فيما يتعلق بديل تسلسل الإدخال يمنع اعتماده كما هو الحال مع إشارات صوتية، والتي تمثل عادة بال تسلسلات الطويلة. اللجوء الحلول الحالية إلى ضغط أساسي أساسي على أساس أخذ العينات الثابتة لميزات الصوت الخام. لذلك، فإن المعلومات اللغوية المفيدة المحتملة غير قابلة للوصول إلى طبقات أعلى مستوى في الهندسة المعمارية. لحل هذه المشكلة، نقترح الكلمة، وهي عبارة عن بنية، بفضل انخفاض استخدام الذاكرة في طبقات الاهتمام، وتجنب ضغط المخلفات الأولية والمعلومات المجامعة فقط على مستوى أعلى وفقا لمعايير لغوية أكثر استنارة. تظهر التجارب على ثلاث أزواج اللغات (en → de / es / nl) فعالية حلنا، مع مكاسب تصل إلى 0.8 بلو على Corpus القياسية يجب أن تكون ميديا ​​وعلى ما يصل إلى 4.0 بلو في سيناريو منخفض الموارد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا