يحتاج تحليل الأدبيات العلمي إلى التعرف على الكيان المسمى بشكل جيد (NER) لتوفير مجموعة واسعة من المعلومات للاكتشاف العلمي. على سبيل المثال، يحتاج أبحاث الكيمياء إلى دراسة العشرات إلى مئات أنواع الكيانات المتميزة والجمالية المميزة، مما يجعل التعليق التوضيحي ثابت ودقيقا صعبا حتى للحشود من خبراء المجال. من ناحية أخرى، يمكن الوصول بسهولة إلى أونتالولوجيات خاصة بالمجال وقواعد المعرفة (KBS) بسهولة، أو شيدت، أو متكامل، مما يجعل الإشراف البعيد واقعية للكيمياء النيذبة الناشئة. في الإشراف البعيد، يتم إنشاء تسميات التدريب عن طريق مطابقة تذكر في وثيقة مع المفاهيم في قواعد المعرفة (KBS). ومع ذلك، فإن هذا النوع من مطابقة KB يعاني من تحديين رئيسيين: التعليق التوضيحي غير الكامل والشروح الصاخبة. نقترح كيمنر، وهي طريقة توجيهية، تحت مضاد المسترد بها، تحت إشراف صاخبة للكيمياء النيذاري المحبوسين عن هذه التحديات. إنه يرفع هيكل OnTology لنوع الكيمياء لتوليد ملصقات بعيدة مع أساليب رواية من الغموض متعددة الأطراف متعددة الأطباق متعددة الأطباق. إنه يحسن بشكل كبير من توليد التسمية البعيدة للتدريب على تسلسل التسلسل اللاحق. نحن نقدم أيضا مجموعة بيانات من الخبراء، وكيمياء NER مع 62 نوعا من كيمياء كيمياء دقيقة (على سبيل المثال، المركبات الكيميائية والتفاعلات الكيميائية). تظهر النتائج التجريبية أن CHEMMNER فعالة للغاية، مما يتفوق بشكل كبير على أساليب NER-Artication NER (مع تحسن درجة F1 المطلقة).
Scientific literature analysis needs fine-grained named entity recognition (NER) to provide a wide range of information for scientific discovery. For example, chemistry research needs to study dozens to hundreds of distinct, fine-grained entity types, making consistent and accurate annotation difficult even for crowds of domain experts. On the other hand, domain-specific ontologies and knowledge bases (KBs) can be easily accessed, constructed, or integrated, which makes distant supervision realistic for fine-grained chemistry NER. In distant supervision, training labels are generated by matching mentions in a document with the concepts in the knowledge bases (KBs). However, this kind of KB-matching suffers from two major challenges: incomplete annotation and noisy annotation. We propose ChemNER, an ontology-guided, distantly-supervised method for fine-grained chemistry NER to tackle these challenges. It leverages the chemistry type ontology structure to generate distant labels with novel methods of flexible KB-matching and ontology-guided multi-type disambiguation. It significantly improves the distant label generation for the subsequent sequence labeling model training. We also provide an expert-labeled, chemistry NER dataset with 62 fine-grained chemistry types (e.g., chemical compounds and chemical reactions). Experimental results show that ChemNER is highly effective, outperforming substantially the state-of-the-art NER methods (with .25 absolute F1 score improvement).
References used
https://aclanthology.org/
For over thirty years, researchers have developed and analyzed methods for latent tree induction as an approach for unsupervised syntactic parsing. Nonetheless, modern systems still do not perform well enough compared to their supervised counterparts
We present ReasonBert, a pre-training method that augments language models with the ability to reason over long-range relations and multiple, possibly hybrid contexts. Unlike existing pre-training methods that only harvest learning signals from local
Although pre-trained big models (e.g., BERT, ERNIE, XLNet, GPT3 etc.) have delivered top performance in Seq2seq modeling, their deployments in real-world applications are often hindered by the excessive computations and memory demand involved. For ma
Distantly supervised named entity recognition (DS-NER) efficiently reduces labor costs but meanwhile intrinsically suffers from the label noise due to the strong assumption of distant supervision. Typically, the wrongly labeled instances comprise num
We offer a fine-grained information state annotation scheme that follows directly from the Incremental Unit abstract model of dialogue processing when used within a multimodal, co-located, interactive setting. We explain the Incremental Unit model and give an example application using the Localized Narratives dataset, then offer avenues for future research.