ترغب بنشر مسار تعليمي؟ اضغط هنا

إنشاء وتقييم Corpus لترجمة الكلام إلى النص والكلام

Corpus Creation and Evaluation for Speech-to-Text and Speech Translation

364   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يسعى مركز الترجمة الظاهري الوطني (NVTC) إلى الحصول على أدوات تكنولوجيا اللغة البشرية (HLT) التي ستسهل مهمتها لتوفير ترجمات حرفية باللغة الإنجليزية لملفات الصوت والفيديو اللغوية.في المجال النصي، تستخدم NVTC ذاكرة الترجمة (TM) لبعض الوقت وقد أبلغت عن دمج الترجمة الآلية (MT) في سير العمل (Miller et al.، 2020).بينما لقد استكشفنا استخدام ترجمة الكلام (STT) وترجمة الكلام (stt) في الماضي (Tzoukermann و Miller، 2018)، فقد استثمرنا الآن في إنشاء كائن كبير من البشر من صنع الإنسان لتقييم بدائل بدقة.النتائج من تحليلنا لهذه الشقوق وأداء أدوات HLT تشير إلى الطريق إلى الأكثر واعدة للنشر في سير العمل لدينا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تعد خلط الكود (سم) ظاهرة شائعة في المجتمعات متعددة اللغات. يلعب CM دورا مهما في مجال التكنولوجيا والحقول الطبية حيث تكون المصطلحات في اللغة الأم وغير معروفة. سيساعد تحديد اللغة (غطاء) من بيانات CM حل مهام NLP مثل التدقيق الإملائي، والتعرف على الكيان المسمى، وعلامات جزء من الكلام، والتحليل الدلالي. في العصر الحالي من التعلم الآلي، فإن المشكلة المشتركة للمهام المذكورة أعلاه هي توافر بيانات التعلم لتدريب نماذج. في هذه الورقة، نقدم مجموعة بيانات Telugu-English-English مزقوفة يدويا (مجموعة بيانات Twitter DataSet and Blog). تحتوي مجموعة بيانات Twitter على المزيد من التباين بالحروف بالحروف اللاتينية وأصحاب أخطاء إملائية من مجموعة بيانات المدونة. قارننا عبر نماذج التصنيف المختلفة وإجراء علامات مقاعد البدلاء واسعة النطاق باستخدام نماذج التعلم الكلاسيكية والعميقة للغطاء مقارنة بالنماذج الحالية. نقترح دورتين لتصنيف اللغة (التيلجو والإنجليزي) في بيانات CM: (1) تصنيف مستوى تصنيف مستوى الكلمات (2) تصنيف الكلمات من Word-Word وتقارن هذه النهج تقديم خطين قويين للغطاء على مجموعات البيانات هذه.
مع وجود شعبية متزايدة للمتحدثين الذكية، مثل الأمازون اليكسا، أصبح الكلام أحد أهم طرق التفاعل بين الإنسان والحاسوب. يمكن القول إن التعرف التلقائي على التعرف على الكلام (ASR) هو العنصر الأكثر أهمية في هذه الأنظمة، حيث ينتشر أخطاء في التعرف على الكلام إ لى مكونات المصب التي تتحلل بشكل كبير من تجربة المستخدم. طريقة بسيطة وفعالة لتحسين دقة التعرف على الكلام هي تطبيق ما بعد المعالج التلقائي نتيجة التعرف. ومع ذلك، فإن التدريب على معالج ما بعد البيع يتطلب شركة موازية تم إنشاؤها بواسطة Annwotators البشرية، وهي مكلفة وغير قابلة للتحجيم. لتخفيف هذه المشكلة، نقترح النسخ الخلفي (BTS)، وهي طريقة قائمة على الدنيوية التي يمكن أن تنشئ مثل هذه الشركة دون عمل بشري. باستخدام CORPUS RAW، يقوم BTS بتلف النص باستخدام أنظمة تحويل النص إلى كلام (TTS) ونص الكلام إلى النص (STT). بعد ذلك، يمكن تدريب نموذج ما بعد المعالجة على إعادة بناء النص الأصلي مع إعطاء المدخلات التالفة. تبين التقييمات الكمية والنوعية أن المعالج بعد المعالج المدرب باستخدام نهجنا فعال للغاية في إصلاح أخطاء التعرف على الكلام غير تافهة مثل سوء الكلمات الأجنبية. نقدم Corpus الموازي الذي تم إنشاؤه ومنصة ما بعد المعالجة لجعل نتائجنا متاحة للجمهور.
تبسيط النص هو حقل متزايد مع العديد من التطبيقات المفيدة المحتملة.تتطلب خوارزميات تبسيط النص التدريب عموما الكثير من البيانات المشروحة، ومع ذلك لا توجد العديد من الشركات المناسبة لهذه المهمة.نقترح طريقة جديدة غير مخالفة لمحاذاة النص بناء على تضمين Doc 2vec وخوارزمية محاذاة جديدة، قادرة على محاذاة النصوص على مستويات مختلفة.يوضح التقييم الأولي نتائج واعدة للنهج الجديد.استخدمنا النهج المطور الذي تم تطويره حديثا لإنشاء كوربلا متوازيا أحادية طيور أحادية جديدة تتألف من أعمال الفلاسفة الحديث الإنجليزي وإصداراتهم المبسطة المقابلة.
تتمثل النهج التقليدي في تحسين أداء نماذج ترجمة الكلام في النهاية (E2E-St) في الاستفادة من النسخ المصدر عبر التدريب المسبق والتدريب المشترك مع التعرف على الكلام التلقائي (ASR) ومهام الترجمة الآلية العصبية (NMT). ومع ذلك، نظرا لأن طرائق الإدخال مختلفة، فمن الصعب الاستفادة من نص لغة المصدر بنجاح. في هذا العمل، نركز على تقطير المعرفة على مستوى التسلسل (SEQKD) من نماذج NMT الخارجية القائمة على النصوص. للاستفادة من الإمكانات الكاملة لمعلومات اللغة المصدر، نقترحنا على الوراء SEQKD، SEQKD من نموذج NMT للخلف إلى المصدر. تحقيقا لهذه الغاية، نقوم بتدريب نموذج ثنائي اللغة E2E-St للتنبؤ بالصايات بمثابة مهمة مساعدة مع وحدة فك ترميز واحدة. يتم إنشاء الصيغة من الترجمات في Bitex عبر الترجمة مرة أخرى. ونحن نقترح مزيدا من SEQKD ثنائي الاتجاه حيث يتم دمج SEQKD من نماذج NMT إلى الأمام والخلف. تظهر التقييمات التجريبية على كل من النماذج التلقائية وغير اللاحنة التلقائية أن Seqkd في كل اتجاه يحسن باستمرار أداء الترجمة، والفعالية مكملة بغض النظر عن القدرات النموذجية.
توضح هذه الورقة تقديم نظام الترجمة من Niutrans End-tou-end الكلام للمهمة غير المتصلة IWSLT 2021، والتي تترجم من الصوت الإنجليزي إلى النص الألماني مباشرة دون نسخ متوسط.نحن نستخدم الهندسة المعمارية النموذجية القائمة على المحولات وتعزيزها عن طريق مطابقة ، ترميز الموضع النسبي، والترميز الصوتية والترميز النصي مكدسة.لزيادة بيانات التدريب، يتم ترجم نسخ اللغة الإنجليزية إلى الترجمات الألمانية.أخيرا، نحن نوظف فك تشفير الفرقة لدمج التنبؤات من عدة نماذج مدربة مع مجموعات البيانات المختلفة.الجمع بين هذه التقنيات، نحقق 33.84 نقطة بلو على مجموعة اختبار EN-DE MUST-C، والتي تظهر الإمكانات الهائلة لنموذج نهاية إلى نهاية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا