لتدقيق متانة نماذج التعرف على الكيان المسماة (NER)، نقترح روكر، وسيلة بسيطة ولكنها فعالة لإنشاء أمثلة خصومة طبيعية. على وجه التحديد، على مستوى الكيان، نحل محل الكيانات المستهدفة مع كيانات أخرى من نفس الطبقة الدلالية في ويكيداتا؛ على مستوى السياق، نستخدم نماذج اللغة المدربة مسبقا (E.G.، Bert) لتوليد بدائل النصية. معا، تنتج مستويين AT- TACH أمثلة مخدرة طبيعية تؤدي إلى توزيع تحول من البيانات التدريبية التي تم تدريب نماذجنا المستهدفة عليها. نحن نطبق الطريقة المقترحة على مجموعة بيانات Ontonotes وإنشاء معيار جديد يدعى OnTorock لتقييم متانة النماذج NER الحالية عبر بروتوكول تقييم منهجي. تجاربنا وتحليلنا تكشف أنه حتى أفضل نموذج له انخفاض كبير في الأداء، ويبدو أن هذه النماذج تحفز أنماط كيان داخل المجال بدلا من التفكير من السياق. يدرس عملنا أيضا آثار عدد قليل من أساليب تكبير البيانات البسيطة لتحسين متانة نماذج NER.
To audit the robustness of named entity recognition (NER) models, we propose RockNER, a simple yet effective method to create natural adversarial examples. Specifically, at the entity level, we replace target entities with other entities of the same semantic class in Wikidata; at the context level, we use pre-trained language models (e.g., BERT) to generate word substitutions. Together, the two levels of at- tack produce natural adversarial examples that result in a shifted distribution from the training data on which our target models have been trained. We apply the proposed method to the OntoNotes dataset and create a new benchmark named OntoRock for evaluating the robustness of existing NER models via a systematic evaluation protocol. Our experiments and analysis reveal that even the best model has a significant performance drop, and these models seem to memorize in-domain entity patterns instead of reasoning from the context. Our work also studies the effects of a few simple data augmentation methods to improve the robustness of NER models.
المراجع المستخدمة
https://aclanthology.org/
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا
الملخص في هذا العمل، ندرس قدرة نماذج NER لاستخدام المعلومات السياقية عند التنبؤ بنوع كيان غامض.نقدم NRB، اختبار جديد مصمم بعناية لتشخيص تحيز الانتظام من النماذج NER.تشير نتائجنا إلى أن جميع النماذج الحديثة التي اختبرناها إظهار مثل هذا التحيز؛نماذج Be
نستكشف تطبيق خوارزميات NER-Art-Branch إلى نصوص مركز الاتصال التي تم إنشاؤها ASR. ركز العمل السابق في هذا المجال على استخدام نموذج Bilstm-CRF الذي اعتمد على تضمين الدعوى؛ ومع ذلك، فإن مثل هذا النموذج غير عملي من حيث الكمون واستهلاك الذاكرة. في بيئة ال
لمعالجة أزمة تلوح في الأفق من التقييم غير المقصود للتعرف على الكيان المسمى، نقترح إرشادات وإدخال SEQSCORE، حزمة البرمجيات لتحسين استنساخ.المبادئ التوجيهية التي نقترحها هي بسيطة للغاية ومركز حول الشفافية فيما يتعلق بكيفية تشفير القطاعات وسجلها.نوضح أن