تعد إجراءات تخليق علوم المواد مجالا واعدا ل NLP العلمي، حيث يمكن أن توفر النمذجة المناسبة لهذه الوصفات نظرة ثاقبة في طرق جديدة لإنشاء المواد. ومع ذلك، فإن التحدي الأساسي في بناء نماذج استخراج المعلومات لإجراءات توليف علوم المواد هو الحصول على ملصقات دقيقة للمواد والعمليات والكيانات الأخرى في تلك الإجراءات. نقدم إحدى كائنات كيان جديدة تذكر التعليقات التوضيحية أكثر من 595 نصية إجرائية تخليق علوم المواد (157،488 رمزا)، والتي توسع بشكل كبير بيانات التدريب المتاحة لمهمة التعرف على الكيان المسمى. نحن نبحث عن مخزون جديد لملفات جديدة مصممة لتوفير شروح متسقة ونهج شرح جديد يهدف إلى زيادة سرعة اتساق وخبراء المجال. تشير دراسات الاتفاقية المشتركة بين النقدية ونماذج الأساس المدربين على البيانات إلى أن كوربوس يوفر شروحا عالية الجودة من هذه الأنواع. تساعد هذه Corpus في وضع أساس النمذجة عالية الجودة في المستقبل لإجراءات التجميعية.
Material science synthesis procedures are a promising domain for scientific NLP, as proper modeling of these recipes could provide insight into new ways of creating materials. However, a fundamental challenge in building information extraction models for material science synthesis procedures is getting accurate labels for the materials, operations, and other entities of those procedures. We present a new corpus of entity mention annotations over 595 Material Science synthesis procedural texts (157,488 tokens), which greatly expands the training data available for the Named Entity Recognition task. We outline a new label inventory designed to provide consistent annotations and a new annotation approach intended to maximize the consistency and annotation speed of domain experts. Inter-annotator agreement studies and baseline models trained upon the data suggest that the corpus provides high-quality annotations of these mention types. This corpus helps lay a foundation for future high-quality modeling of synthesis procedures.
References used
Detection of occupations in texts is relevant for a range of important application scenarios, like competitive intelligence, sociodemographic analysis, legal NLP or health-related occupational data mining. Despite the importance and heterogeneous dat
Recent successes in deep generative modeling have led to significant advances in natural language generation (NLG). Incorporating entities into neural generation models has demonstrated great improvements by assisting to infer the summary topic and t
This paper studies the problem of cross-document event coreference resolution (CDECR) that seeks to determine if event mentions across multiple documents refer to the same real-world events. Prior work has demonstrated the benefits of the predicate-a
While powerful pre-trained language models have improved the fluency of text generation models, semantic adequacy -the ability to generate text that is semantically faithful to the input- remains an unsolved issue. In this paper, we introduce a novel
Named entity disambiguation (NED), which involves mapping textual mentions to structured entities, is particularly challenging in the medical domain due to the presence of rare entities. Existing approaches are limited by the presence of coarse-grain