نقترح نموذج تسلسل متعدد التسلسل للمحولات للتعرف على الكلام التلقائي (ASR) قادر على نسخ الصوت التلقائي (ASR) من نسخ الصوت في وقت واحد والشروحة مع المعلومات اللغوية مثل النصوص الصوتية أو علامات جزء من الكلام (POS). نظرا لأن المعلومات اللغوية مهمة في معالجة اللغة الطبيعية (NLP)، فإن ASR المقترح مفيد بشكل خاص لتطبيقات واجهة الكلام، بما في ذلك أنظمة الحوار المنطوقة والترجمة الكلامية، والتي تجمع بين ASR و NLP. لإنتاج التعليقات التوضيحية اللغوية، ندرب نظام ASR باستخدام أهداف تدريبية معدلة: يتبع كل وحدة جرفية أو متعددة الجرافيم في النص المستهدف تسلسل صوت محاذاة و / أو علامة نقاط البيع. نظرا لأن طريقتنا قد تمكن من الوصول إلى البيانات الصوتية الأساسية، فيمكننا تقدير التعليقات التوضيحية اللغوية بشكل أكثر دقة من نهج خطوط الأنابيب التي يتم فيها تطبيق الأساليب القائم على NLP على نص ASR الفرضية. تظهر النتائج التجريبية على مجموعات البيانات اليابانية والإنجليزية أن نظام ASR المقترح قادر على إنتاج نسخ عالية الجودة في وقت واحد والشروح اللغوية.
We propose a Transformer-based sequence-to-sequence model for automatic speech recognition (ASR) capable of simultaneously transcribing and annotating audio with linguistic information such as phonemic transcripts or part-of-speech (POS) tags. Since linguistic information is important in natural language processing (NLP), the proposed ASR is especially useful for speech interface applications, including spoken dialogue systems and speech translation, which combine ASR and NLP. To produce linguistic annotations, we train the ASR system using modified training targets: each grapheme or multi-grapheme unit in the target transcript is followed by an aligned phoneme sequence and/or POS tag. Since our method has access to the underlying audio data, we can estimate linguistic annotations more accurately than pipeline approaches in which NLP-based methods are applied to a hypothesized ASR transcript. Experimental results on Japanese and English datasets show that the proposed ASR system is capable of simultaneously producing high-quality transcriptions and linguistic annotations.
References used
https://aclanthology.org/
We describe the NUIG solution for IWPT 2021 Shared Task of Enhanced Dependency (ED) parsing in multiple languages. For this shared task, we propose and evaluate an End-to-end Seq2seq mBERT-based ED parser which predicts the ED-parse tree of a given i
Most previous studies on information status (IS) classification and bridging anaphora recognition assume that the gold mention or syntactic tree information is given (Hou et al., 2013; Roesiger et al., 2018; Hou, 2020; Yu and Poesio, 2020). In this p
This paper describes a method for retrieving evidence and predicting the veracity of factual claims, on the FEVEROUS dataset. The evidence consists of both sentences and table cells. The proposed method is part of the FEVER shared task. It uses simil
This tutorial surveys the latest technical progress of syntactic parsing and the role of syntax in end-to-end natural language processing (NLP) tasks, in which semantic role labeling (SRL) and machine translation (MT) are the representative NLP tasks
A currently popular research area in end-to-end speech translation is the use of knowledge distillation from a machine translation (MT) task to improve the speech translation (ST) task. However, such scenario obviously only allows one way transfer, w