تجادل الدراسات الحديثة بأن تقطير المعرفة يعد إلى ترجمة الكلام (ST) باستخدام النماذج الطرفية إلى النهاية.في هذا العمل، يمكننا التحقيق في تأثير تقطير المعرفة مع SC CASCADE باستخدام نماذج الترجمة التلقائية للكلام (ASR) ونماذج الترجمة الآلية (MT).نحن نوفر المعرفة من طراز المعلم بناء على النصوص البشرية لطراز الطلاب بناء على النسخ الخاطئة.أثبتت نتائجنا التجريبية أن تقطير المعرفة مفيد لشارع Cascade.كشف مزيد من التحقيق الذي يجمع تقطير المعرفة والضبط بشكل جيد أن الجمع بين اثنين من أزواج اللغة: الإنجليزية - الإيطالية والإسبانية الإنجليزية.
Recent studies argue that knowledge distillation is promising for speech translation (ST) using end-to-end models. In this work, we investigate the effect of knowledge distillation with a cascade ST using automatic speech recognition (ASR) and machine translation (MT) models. We distill knowledge from a teacher model based on human transcripts to a student model based on erroneous transcriptions. Our experimental results demonstrated that knowledge distillation is beneficial for a cascade ST. Further investigation that combined knowledge distillation and fine-tuning revealed that the combination consistently improved two language pairs: English-Italian and Spanish-English.
المراجع المستخدمة
https://aclanthology.org/
تتمثل النهج التقليدي في تحسين أداء نماذج ترجمة الكلام في النهاية (E2E-St) في الاستفادة من النسخ المصدر عبر التدريب المسبق والتدريب المشترك مع التعرف على الكلام التلقائي (ASR) ومهام الترجمة الآلية العصبية (NMT). ومع ذلك، نظرا لأن طرائق الإدخال مختلفة،
للحد من حجم النموذج ولكن الاحتفاظ بالأداء، كنا نعتمد في كثير من الأحيان على تقطير المعرفة (دينار كويتي) الذي ينقل المعرفة من نموذج المعلم الكبير إلى نموذج طالب أصغر. ومع ذلك، فإن KD على مجموعات بيانات متعددة الوسائط مثل مهام اللغة الرؤية غير مستكشفة
على الرغم من أن النماذج الكبيرة المدربة مسبقا (E.G.، Bert، Ernie، Xlnet، GPT3 وما إلى ذلك) قدمت أداء أعلى في النمذجة SEQ2SEQ، وغالبا ما تعوق عمليات نشرها في تطبيقات العالم الحقيقي بواسطة الحسابات المفرطة وطلب الذاكرة المعنية. بالنسبة للعديد من التطبي
في هذه الورقة، نطبق تقطير المعرفة الذاتية لتلخيص النص الذي نقوله أنه يمكن أن يخفف من مشاكل في الحد الأقصى للتدريب احتمالية على مجموعات بيانات مرجعية واحدة وصاخبة.بدلا من الاعتماد على ملصقات توضيحية ذات ساخنة واحدة، يتم تدريب نموذج تلخيص الطلاب لدينا
تم إثبات المشفرات المستندة إلى المحولات المسبدة مسبقا مثل بيرت لتحقيق الأداء الحديث في العديد من مهام NLP العديدة. على الرغم من نجاحهم، فإن ترميز نمط بيرت كبير الحجم ولديها زمن بيانات عالية أثناء الاستدلال (خاصة في آلات وحدة المعالجة المركزية) مما يج