الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات لمساعدة الباحثين والممارسين على فهم التحديات التي يفرضونها على مهام NER.نقوم بتحليل مجموعات البيانات لدينا وإجراء تقييم تجريبي واسع النطاق للطرق الحكومية في جميع إعدادات التعلم الإشراف والنقل.أخيرا، نطلق سراح البيانات والرمز والنماذج لإلهام البحوث المستقبلية على الأفريقية NLP.1
Abstract We take a step towards addressing the under- representation of the African continent in NLP research by bringing together different stakeholders to create the first large, publicly available, high-quality dataset for named entity recognition (NER) in ten African languages. We detail the characteristics of these languages to help researchers and practitioners better understand the challenges they pose for NER tasks. We analyze our datasets and conduct an extensive empirical evaluation of state- of-the-art methods across both supervised and transfer learning settings. Finally, we release the data, code, and models to inspire future research on African NLP.1
المراجع المستخدمة
https://aclanthology.org/
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا
نستكشف تطبيق خوارزميات NER-Art-Branch إلى نصوص مركز الاتصال التي تم إنشاؤها ASR. ركز العمل السابق في هذا المجال على استخدام نموذج Bilstm-CRF الذي اعتمد على تضمين الدعوى؛ ومع ذلك، فإن مثل هذا النموذج غير عملي من حيث الكمون واستهلاك الذاكرة. في بيئة ال
يتزايد استخدام التعرف على الكيان المسمى (NER) على النصوص العربية القديمة بشكل مطرد.ومع ذلك، فقد تم تطوير معظم الأدوات لإرجاع اللغة الإنجليزية الحديثة أو تدربت على وثائق اللغة الإنجليزية وهي محدودة للنص العربي التاريخي.حتى أدوات NER العربية غالبا ما ت
لمعالجة أزمة تلوح في الأفق من التقييم غير المقصود للتعرف على الكيان المسمى، نقترح إرشادات وإدخال SEQSCORE، حزمة البرمجيات لتحسين استنساخ.المبادئ التوجيهية التي نقترحها هي بسيطة للغاية ومركز حول الشفافية فيما يتعلق بكيفية تشفير القطاعات وسجلها.نوضح أن
يعد التعرف على الكيان المسمى مهمة أساسية في معالجة اللغة الطبيعية للكشف عن الكيانات وتصنيفها إلى فئات محددة سلفا. كيان هو كلمة ذات معنى، أو عبارة تشير إلى الأسماء المناسبة. تلعب الكيانات المسماة دورا مهما في مهام NLP المختلفة مثل استخراج المعلومات، و