أظهرت الدراسات الحديثة في التعلم العميق تقدما كبيرا في التعرف على الكيان المسمى (NER).ومع ذلك، تفترض أن معظم الأعمال الموجودة تفرض شرحا نظيفا للبيانات، في حين أن سيناريوهات العالم الواقعي تشتمل عادة على كمية كبيرة من الضوضاء من مجموعة متنوعة من المصادر (E.G.، الزائفة أو الضعيفة أو الشريحية البعيدة).يدرس هذا العمل ner تحت إعداد صاخبة تحمل تصنيف مع تقدير الثقة المعايرة.بناء على الملاحظات التجريبية لمختلف الديناميات التدريبية للتسميات الصاخبة والنظيفة، نقترح استراتيجيات لتقدير درجات الثقة بناء على افتراضات الاستقلال المحلية والعالمية.نحن نتهم جزئيا تسميات الثقة المنخفضة بنموذج CRF.نقترح طريقة معايرة لعشرات الثقة بناء على هيكل ملصقات الكيان.نحن ندمج نهجنا في إطار التدريب الذاتي لتعزيز الأداء.تجارب في إعدادات صاخبة عامة مع أربع لغات وإعدادات المسمى المسمى أظهرت فعالية طريقتنا.
Recent studies in deep learning have shown significant progress in named entity recognition (NER). However, most existing works assume clean data annotation, while real-world scenarios typically involve a large amount of noises from a variety of sources (e.g., pseudo, weak, or distant annotations). This work studies NER under a noisy labeled setting with calibrated confidence estimation. Based on empirical observations of different training dynamics of noisy and clean labels, we propose strategies for estimating confidence scores based on local and global independence assumptions. We partially marginalize out labels of low confidence with a CRF model. We further propose a calibration method for confidence scores based on the structure of entity labels. We integrate our approach into a self-training framework for boosting performance. Experiments in general noisy settings with four languages and distantly labeled settings demonstrate the effectiveness of our method.
References used
https://aclanthology.org/
We study multilingual AMR parsing from the perspective of knowledge distillation, where the aim is to learn and improve a multilingual AMR parser by using an existing English parser as its teacher. We constrain our exploration in a strict multilingua
Knowledge Distillation (KD) is extensively used to compress and deploy large pre-trained language models on edge devices for real-world applications. However, one neglected area of research is the impact of noisy (corrupted) labels on KD. We present,
Biomedical Named Entities are complex, so approximate matching has been used to improve entity coverage. However, the usual approximate matching approach fetches only one matching result, which is often noisy. In this work, we propose a method for bi
In quality estimation (QE), the quality of translation can be predicted by referencing the source sentence and the machine translation (MT) output without access to the reference sentence. However, there exists a paradox in that constructing a datase
This paper describes POSTECH's quality estimation systems submitted to Task 2 of the WMT 2021 quality estimation shared task: Word and Sentence-Level Post-editing Effort. We notice that it is possible to improve the stability of the latest quality es