أصبحت نماذج المحولات التي يتم ضبطها بشكل جيد مع هدف وضع العلامات على التسلسل الاختيار المهيمن لمهام التعرف على الكيان المسمى. ومع ذلك، يمكن أن تفشل آلية اهتمام الذات مع طول غير مقيد في التقاط التبعيات المحلية بالكامل، خاصة عندما تكون البيانات التدريبية محدودة. في هذه الورقة، نقترح هدف تدريب مشترك جديد يلتقط أفضل دلالات الكلمات المقابلة لنفس الكيان. من خلال زيادة هدف التدريب مع عنصر فقدان المجموعة-الاتساق، فإننا نعزز قدرتنا على التقاط التبعيات المحلية مع الاستمتاع بمزايا آلية اهتمام الذات غير المقيد. على DataSet Conll2003، تحقق طريقة لدينا اختبار F1 من 93.98 مع نموذج محول واحد. الأهم من ذلك أن نموذج Conlll2003 الخاص بنا يعرض مكاسب كبيرة في تعميم البيانات خارج نطاق البيانات: على مجموعة بيانات OnTonotes، نحقق F1 من 72.67 وهو 0.49 نقطة مطلقا أفضل من خط الأساس، وعلى WNUT16 تعيين F1 من 68.22 وهو مكاسب من 0.48 نقطة. علاوة على ذلك، في DataSet WNUT17، نحقق F1 من 55.85، مما يؤدي إلى تحسن مطلق 2.92 نقطة.
Transformer models fine-tuned with a sequence labeling objective have become the dominant choice for named entity recognition tasks. However, a self-attention mechanism with unconstrained length can fail to fully capture local dependencies, particularly when training data is limited. In this paper, we propose a novel joint training objective which better captures the semantics of words corresponding to the same entity. By augmenting the training objective with a group-consistency loss component we enhance our ability to capture local dependencies while still enjoying the advantages of the unconstrained self-attention mechanism. On the CoNLL2003 dataset, our method achieves a test F1 of 93.98 with a single transformer model. More importantly our fine-tuned CoNLL2003 model displays significant gains in generalization to out of domain datasets: on the OntoNotes subset we achieve an F1 of 72.67 which is 0.49 points absolute better than the baseline, and on the WNUT16 set an F1 of 68.22 which is a gain of 0.48 points. Furthermore, on the WNUT17 dataset we achieve an F1 of 55.85, yielding a 2.92 point absolute improvement.
References used
https://aclanthology.org/
It has been shown that named entity recognition (NER) could benefit from incorporating the long-distance structured information captured by dependency trees. We believe this is because both types of features - the contextual information captured by t
Abstract We take a step towards addressing the under- representation of the African continent in NLP research by bringing together different stakeholders to create the first large, publicly available, high-quality dataset for named entity recognition
Current work in named entity recognition (NER) shows that data augmentation techniques can produce more robust models. However, most existing techniques focus on augmenting in-domain data in low-resource scenarios where annotated data is quite limite
Although pre-trained big models (e.g., BERT, ERNIE, XLNet, GPT3 etc.) have delivered top performance in Seq2seq modeling, their deployments in real-world applications are often hindered by the excessive computations and memory demand involved. For ma
We explore the application of state-of-the-art NER algorithms to ASR-generated call center transcripts. Previous work in this domain focused on the use of a BiLSTM-CRF model which relied on Flair embeddings; however, such a model is unwieldy in terms