كان هناك طلب متزايد لتطوير أنظمة التدريب اللغوية بمساعدة الكمبيوتر (النقص)، والتي يمكن أن توفر ملاحظات حول سوء الأخطاء وتسهيل المتعلمين اللغة الثانية (L2) لتحسين إجادتها الناطقة من خلال الممارسة المتكررة. نظرا لنقص الكلام غير الأصلي لتدريب الوحدة النمطية للتعرف على الكلام التلقائي (ASR) من نظام النقيب، فإن أداء الكشف عن الأخطاء السخطية المقابلة غالبا ما يتأثر بشكل غالبا بواسطة unffect ASR. وإذ تدرك هذه الأهمية، فإننا في هذه الورقة طرحت طريقة اكتشاف أخطاء أخطاء في مرحلتين. في المرحلة الأولى، تتم معالجة الخطاب الذي ينطقه متعلم L2 من خلال وحدة ASR المناسبة لإنتاج فرضيات تسلسل الهاتف N-Best. في المرحلة الثانية، يتم تغذية هذه الفرضيات في نموذج النطق الذي يسعى إلى التنبؤ بأمانة بفرض رسوم تسلسل الهاتف الذي هو على الأرجح واضحا من قبل المتعلم، وذلك لتحسين أداء اكتشاف أخطاء أخطاء. أجرت التجارب التجريبية مجموعة بيانات قياسية باللغة الإنجليزية تأكيد فائدة طريقتنا.
There has been increasing demand to develop effective computer-assisted language training (CAPT) systems, which can provide feedback on mispronunciations and facilitate second-language (L2) learners to improve their speaking proficiency through repeated practice. Due to the shortage of non-native speech for training the automatic speech recognition (ASR) module of a CAPT system, the corresponding mispronunciation detection performance is often affected by imperfect ASR. Recognizing this importance, we in this paper put forward a two-stage mispronunciation detection method. In the first stage, the speech uttered by an L2 learner is processed by an end-to-end ASR module to produce N-best phone sequence hypotheses. In the second stage, these hypotheses are fed into a pronunciation model which seeks to faithfully predict the phone sequence hypothesis that is most likely pronounced by the learner, so as to improve the performance of mispronunciation detection. Empirical experiments conducted a English benchmark dataset seem to confirm the utility of our method.
المراجع المستخدمة
https://aclanthology.org/
جذبت الكشف عن المشاعر من وظائف وسائل التواصل الاجتماعي اهتماما ملحوظا من مجتمع معالجة اللغة الطبيعية (NLP) في السنوات الأخيرة.تختلف طرق الحصول على ملصقات ذهبية لتدريب واختبار أنظمة الكشف عن المشاعر التلقائية بشكل كبير من دراسة واحدة إلى أخرى، وتشكل م
في هذه الورقة، نصف التجارب المصممة لتقييم تأثير الميزات المصنوعة من النسيج والعاطفة على الكشف عن الكلام الكراهية: مهمة تصنيف المحتوى النصي في فئات الكلام الكراهية أو غير الكراهية. تجري تجاربنا لمدة ثلاث لغات - اللغة الإنجليزية والسلوفين والهولندية -
نقدم HATEBERT، نموذج BERT الذي تم تدريبه على إعادة تدريب للكشف عن اللغة المسيئة باللغة الإنجليزية.تم تدريب النموذج على RAL-E، وهي مجموعة بيانات واسعة النطاق من تعليقات Reddit باللغة الإنجليزية من المجتمعات المحظورة لكونها مسيئة أو بغيضة حيث قمنا بإتا
تقدم هذه الدراسة نسخة مخصبة من DataSet E2E، وهي واحدة من موارد اللغة الأكثر شعبية ل NLG البيانات إلى النص.نحن نستخلص من التمثيل الوسيط لمهام خطوط الأنابيب الشعبية مثل ترتيب الخطاب، وهيكال نصية، وتعليم التعبير وإشارة التعبير،، مما يتيح الباحثين على تط
تهدف مهمة اكتشاف الحدث (ED) في استخراج المعلومات إلى الاعتراف وتصنيف كلمات الأحداث في النص. تميز التقدم الأخير نماذج لغوية متقدمة للمحولات المتقدمة (على سبيل المثال، بيرت) كعنصر حاسم في النماذج الحديثة للإد. ومع ذلك، فإن الحد الطول لنصوص الإدخال هو ح