تعد إجراءات تخليق علوم المواد مجالا واعدا ل NLP العلمي، حيث يمكن أن توفر النمذجة المناسبة لهذه الوصفات نظرة ثاقبة في طرق جديدة لإنشاء المواد. ومع ذلك، فإن التحدي الأساسي في بناء نماذج استخراج المعلومات لإجراءات توليف علوم المواد هو الحصول على ملصقات دقيقة للمواد والعمليات والكيانات الأخرى في تلك الإجراءات. نقدم إحدى كائنات كيان جديدة تذكر التعليقات التوضيحية أكثر من 595 نصية إجرائية تخليق علوم المواد (157،488 رمزا)، والتي توسع بشكل كبير بيانات التدريب المتاحة لمهمة التعرف على الكيان المسمى. نحن نبحث عن مخزون جديد لملفات جديدة مصممة لتوفير شروح متسقة ونهج شرح جديد يهدف إلى زيادة سرعة اتساق وخبراء المجال. تشير دراسات الاتفاقية المشتركة بين النقدية ونماذج الأساس المدربين على البيانات إلى أن كوربوس يوفر شروحا عالية الجودة من هذه الأنواع. تساعد هذه Corpus في وضع أساس النمذجة عالية الجودة في المستقبل لإجراءات التجميعية.
Material science synthesis procedures are a promising domain for scientific NLP, as proper modeling of these recipes could provide insight into new ways of creating materials. However, a fundamental challenge in building information extraction models for material science synthesis procedures is getting accurate labels for the materials, operations, and other entities of those procedures. We present a new corpus of entity mention annotations over 595 Material Science synthesis procedural texts (157,488 tokens), which greatly expands the training data available for the Named Entity Recognition task. We outline a new label inventory designed to provide consistent annotations and a new annotation approach intended to maximize the consistency and annotation speed of domain experts. Inter-annotator agreement studies and baseline models trained upon the data suggest that the corpus provides high-quality annotations of these mention types. This corpus helps lay a foundation for future high-quality modeling of synthesis procedures.
المراجع المستخدمة
https://aclanthology.org/
إن اكتشاف المهن في النصوص ذات صلة بمجموعة من سيناريوهات التطبيق الهامة، مثل الذكاء التنافسي والتحليل الاجتماعي والمندول الاجتماعي أو تعدين البيانات المرتبطة بالصحة الصحية. على الرغم من الأهمية وأنواع البيانات غير المتجانسة التي تذكر المهن، كانت جهود
أدت النجاحات الأخيرة في النمذجة التوليدية العميقة إلى تقدم كبير في توليد اللغة الطبيعية (NLG).أظهرت دمج الكيانات في نماذج الجيل العصبي تحسينات كبيرة من خلال المساعدة في استنتاج الموضوع الموجز وإنشاء محتوى متماسك.لتعزيز دور الكيان في NLG، في هذه الورق
تدرس هذه الورقة مشكلة دقة Aquerence Aquerence Coursence (CDE) التي تسعى إلى تحديد ما إذا كان يذكر الحدث عبر مستندات متعددة تشير إلى نفس الأحداث في العالم الحقيقي.أظهر العمل المسبق فوائد معلومات الوسائد وسياق الوثيقة لحل فور معلومات الحدث.ومع ذلك، لم
في حين أن نماذج قوية مدربة مسبقا قد تحسنت بطلاقة نماذج توليد النص، فإن كفاية الدلالة - القدرة على توليد نص مخلص من الدلالة إلى الإدخال - لا تزال قضية ملحوظة. في هذه الورقة، نقدم كفايات دهالية التقييم التلقائية الجديدة، والتي يمكن استخدامها لتقييم نما
إن إزالة الكيانات المسماة (NED)، والتي تنطوي على رسم الخرائط النصية للكيانات الهيكلية، تحديا بشكل خاص في المجال الطبي بسبب وجود كيانات نادرة.تقتصر الأساليب الحالية بوجود الموارد الهيكلية الخشونة في قواعد المعرفة الطبية الحيوية وكذلك استخدام مجموعات ا