توضح هذه الورقة تقديم نظام FBK إلى مهمة ترجمة الكلام IWSLT 2021. شاركنا نموذجا مباشرا، وهو عبارة عن بنية قائمة على المحولات المدربة لتترجم بيانات صوت الكلام باللغة الإنجليزية إلى نصوص ألمانية. يتميز خط أنابيب التدريب بتقطير المعرفة وإجراءات ضبط ناعم من خطوتين. يتم تنفيذ كل من تقطير المعرفة والخطوة الأولى الدقيقة على البيانات الحقيقية والاصطناعية مجزأة يدويا، والذي يتم إنشاؤه في هذا الأخير بنظام MT المدرب على الشركة المتاحة. بشكل مختلف، يتم تنفيذ خطوة التشغيل الدقيقة الثانية في تجزئة عشوائية ل DataSet MUST-C V2 EN-DE. هدفها الرئيسي هو تقليل قطرات الأداء التي تحدث عندما يتم تقييم نموذج الترجمة الكلام على البيانات المجزأة يدويا (I.E. لنفس الغرض، يتم تطبيق إجراء تجزئة هجينة مخصص تمثل كلا المحتوى الصوتي (توقف) وطول القطاعات المنتجة على بيانات الاختبار قبل تمريرها إلى النظام. في وقت الاستنتاج، قارننا هذا الإجراء مع طريقة تجزئة خط الأساس استنادا إلى اكتشاف نشاط الصوت (VAD). تشير نتائجنا إلى فعالية النهج الهجين المقترح، الذي أظهره تخفيض الفجوة مع تجزئة يدوية من نقاط بلو 8.3 إلى 1.4.
This paper describes FBK's system submission to the IWSLT 2021 Offline Speech Translation task. We participated with a direct model, which is a Transformer-based architecture trained to translate English speech audio data into German texts. The training pipeline is characterized by knowledge distillation and a two-step fine-tuning procedure. Both knowledge distillation and the first fine-tuning step are carried out on manually segmented real and synthetic data, the latter being generated with an MT system trained on the available corpora. Differently, the second fine-tuning step is carried out on a random segmentation of the MuST-C v2 En-De dataset. Its main goal is to reduce the performance drops occurring when a speech translation model trained on manually segmented data (i.e. an ideal, sentence-like segmentation) is evaluated on automatically segmented audio (i.e. actual, more realistic testing conditions). For the same purpose, a custom hybrid segmentation procedure that accounts for both audio content (pauses) and for the length of the produced segments is applied to the test data before passing them to the system. At inference time, we compared this procedure with a baseline segmentation method based on Voice Activity Detection (VAD). Our results indicate the effectiveness of the proposed hybrid approach, shown by a reduction of the gap with manual segmentation from 8.3 to 1.4 BLEU points.
المراجع المستخدمة
https://aclanthology.org/
تظهر الأبحاث الحديثة أن النماذج المدربة مسبقا (PTMS) مفيدة تجزئة الكلمات الصينية (CWS).ومع ذلك، فإن PTMS المستخدمة في الأعمال السابقة عادة ما تعتمد نمذجة اللغة كامرأة تدريبية مسبقا، تفتقر إلى معرفة تجزئة مسبقة خاصة بمهام المهام وتجاهل التناقض بين مها
في تقدير الجودة (QE)، يمكن التنبؤ بجودة الترجمة بالرجوع إلى الجملة المصدر وإخراج الترجمة الآلية (MT) دون الوصول إلى الجملة المرجعية. ومع ذلك، هناك مفارقة في أن بناء مجموعة بيانات لإنشاء نموذج QE يتطلب عمالة إنسانية غير تافهة ووقت، وقد يتطلب جهدا إضاف
نقدم معايير جديدة للكشف عن إعادة صياغة هذه اللغات الست في Corphrase Opusparcus Somprase: الإنجليزية والفنلندية والفرنسية والألمانية والروسية والسويدية.نصل إلى هذه الأساس عن طريق رصيد الرصيد.يتم تحقيق أفضل النتائج في مجموعات فرعية أصغر وأنظف من مجموعا
استرجاع المرور والترتيب هو مهمة رئيسية في الإجابة على الأسئلة المفتوحة واسترجاع المعلومات. تعتمد الأساليب الفعالة الحالية في الغالب على المستردين المعتمدين على النموذج العميق المدربين مسبقا. تم عرض هذه الأساليب نموذجا بفعالية المطابقة الدلالية بين ال
تحتوي هذه الورقة على وصف لتقديم معهد Karlsruhe للتكنولوجيا (KIT) لمهمة ترجمة TEDX متعددة اللغات في حملة تقييم IWSLT 2021.نهجنا الرئيسي هو تطوير كل من النظم المتتالية ونظم نهاية إلى نهاية وتجمع بينها في نهاية المطاف لتحقيق أفضل النتائج الممكنة لهذا ال