في حين أن التعرف على الكيان المسمى (NER) من الكلام كان موجودا طالما أن NER من نص مكتوب لديه، فإن دقة NER من الكلام كانت أيضا أقل بكثير من NER من النص. يبرز ارتفاع شعبية أنظمة الحوار المنطوقة مثل Siri أو Alexa الحاجة إلى أكثر دقة من الكلام من الكلام لأن NER هو مكون أساسي لفهم ما قاله المستخدمون في الحوار. تتلقى أنظمة الحوار المنطوقة المنطوقة إدخال المستخدم في شكل نصوص التعرف على الكلام التلقائي (ASR)، وببساطة تطبيق نموذج NER المدربين على النص المكتوب إلى نصوص ASR غالبا ما يؤدي إلى دقة منخفضة لأنها مقارنة بالنص المكتبكي، تفتقر نصوص ASR إلى إشارات مهمة مثل علامات الترقيم والرسملة. علاوة على ذلك، فإن الأخطاء في نصوص العصر تجعل أيضا NER من الكلام الصعب. نقترح نماذجين تستغلوا أدلة سياق الحوار ونمط الكلام لاستخراج الكيانات المسماة بدقة أكثر دقة من مربعات الحوار المفتوحة في أنظمة الحوار المنطوقة. تظهر نتائجنا الاستفادة من سياق حوار النمذجة وأنماط الكلام في إعدادتين: إعداد قياسي مع قسم عشوائي من البيانات وأكثر واقعية من الإعداد ولكن أيضا أكثر صعوبة حيث تكون العديد من الكيانات المسماة التي تمت مواجهتها أثناء النشر غير مرئي أثناء التدريب.
While named entity recognition (NER) from speech has been around as long as NER from written text has, the accuracy of NER from speech has generally been much lower than that of NER from text. The rise in popularity of spoken dialog systems such as Siri or Alexa highlights the need for more accurate NER from speech because NER is a core component for understanding what users said in dialogs. Deployed spoken dialog systems receive user input in the form of automatic speech recognition (ASR) transcripts, and simply applying NER model trained on written text to ASR transcripts often leads to low accuracy because compared to written text, ASR transcripts lack important cues such as punctuation and capitalization. Besides, errors in ASR transcripts also make NER from speech challenging. We propose two models that exploit dialog context and speech pattern clues to extract named entities more accurately from open-domain dialogs in spoken dialog systems. Our results show the benefit of modeling dialog context and speech patterns in two settings: a standard setting with random partition of data and a more realistic but also more difficult setting where many named entities encountered during deployment are unseen during training.
المراجع المستخدمة
https://aclanthology.org/
الملخص في هذا العمل، ندرس قدرة نماذج NER لاستخدام المعلومات السياقية عند التنبؤ بنوع كيان غامض.نقدم NRB، اختبار جديد مصمم بعناية لتشخيص تحيز الانتظام من النماذج NER.تشير نتائجنا إلى أن جميع النماذج الحديثة التي اختبرناها إظهار مثل هذا التحيز؛نماذج Be
نستكشف تطبيق خوارزميات NER-Art-Branch إلى نصوص مركز الاتصال التي تم إنشاؤها ASR. ركز العمل السابق في هذا المجال على استخدام نموذج Bilstm-CRF الذي اعتمد على تضمين الدعوى؛ ومع ذلك، فإن مثل هذا النموذج غير عملي من حيث الكمون واستهلاك الذاكرة. في بيئة ال
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا
يتزايد استخدام التعرف على الكيان المسمى (NER) على النصوص العربية القديمة بشكل مطرد.ومع ذلك، فقد تم تطوير معظم الأدوات لإرجاع اللغة الإنجليزية الحديثة أو تدربت على وثائق اللغة الإنجليزية وهي محدودة للنص العربي التاريخي.حتى أدوات NER العربية غالبا ما ت