غالبا ما تعوق التنبؤ القائم على التعلم في مجال خصائص المواد بسبب عدم وجود مجموعات بيانات تدريبية كبيرة بما فيه الكفاية. غالبية بيانات القياس هذه مضمنة في الأدبيات العلمية والقدرة على استخراج هذه البيانات تلقائيا ضرورية لدعم تطوير أساليب التنبؤ بالخصائص الموثوقة. في هذا العمل، نصف منهجية لتطوير إطار استخراج الممتلكات التلقائي باستخدام ذوبان المواد كخاصية الهدف. نخلق مجموعة بيانات تدريبية وتقييم تحتوي على علامات للكيانات المتعلقة بالذوبان باستخدام مزيج من التعبيرات العادية والعلامة اليدوية. ثم قارنا خمسة نماذج التعرف على الكيان الاستفادة من كلا من المعماريين على مستوى الرمز المميز ومضمون مهمة تصنيف أسماء المذابة وقيم الذوبان وحدات الذوبان. بالإضافة إلى ذلك، نستكشف نهج محاولات رواية يرفع أدوات استخراج الاسم الكيميائي والكمية الآلي لتوليد مجموعات بيانات كبيرة لا تعتمد على العلامات اليدوية المكثفة. أخيرا، نقوم بإجراء تحليل لتحديد أسباب أخطاء التصنيف.
Machine learning-based prediction of material properties is often hampered by the lack of sufficiently large training data sets. The majority of such measurement data is embedded in scientific literature and the ability to automatically extract these data is essential to support the development of reliable property prediction methods. In this work, we describe a methodology for developing an automatic property extraction framework using material solubility as the target property. We create a training and evaluation data set containing tags for solubility-related entities using a combination of regular expressions and manual tagging. We then compare five entity recognition models leveraging both token-level and span-level architectures on the task of classifying solute names, solubility values, and solubility units. Additionally, we explore a novel pretraining approach that leverages automated chemical name and quantity extraction tools to generate large datasets that do not rely on intensive manual tagging. Finally, we perform an analysis to identify the causes of classification errors.
المراجع المستخدمة
https://aclanthology.org/
يؤدي استخراج الموجات القصيرة تلقائيا من المستندات العلمية إلى تمثيل موجز قيم يمكن أن يفهم البشر ويمكنهم معالجة الآلات للمهام، مثل استرجاع المعلومات، تجميع المقالات وتصنيف المادة.تهتم هذه الورقة بأجزاء مقالة علمية يجب أن تعطى كمدخلات لطرق استخراج الحر
في هذه الورقة، ندرس أهمية السياق في التنبؤ بالجدارة من الجمل في المقالات العلمية.نحن صياغة هذه المشكلة كملمس تسلسل تسلسل باستخدام نموذج Bilstm هرمي.نحن نساهم في مجموعة بيانات قياسية جديدة تحتوي على أكثر من مليوني جمل وملمياتها المقابلة.نحافظ على ترتي
تظهر النهج الحديثة القائمة على المحولات نتائج واعدة على استخراج المعلومات العلمية العلائقية. تركز مجموعات البيانات الحالية على وصف رفيع المستوى لكيفية تنفيذ البحث. بدلا من ذلك، نركز على التفاصيل الدقيقة لكيفية تقديم الرابطات التجريبية من خلال بناء SC
تصف هذه الورقة النظام الذي بنناه كفريق YNU-HPCC في مهمة Semeval-2021 11: NLPContribeGraph. تتضمن هذه المهمة أولا تحديد الجمل في المقالات العلمية المعينة للغة الطبيعية (NLP) التي تعكس مساهمات البحث من خلال التصنيف الثنائي؛ ثم تحديد المصطلحات العلمية ا
يمكن استخراج المعلومات المهيكلة من المحادثات الطبية تقليل عبء الوثائق للأطباء ومساعدة المرضى الذين يتبعون مع خطة الرعاية الخاصة بهم.في هذه الورقة، نقدم مهمة جديدة لاستخراج المواعيد يمتد من المحادثات الطبية.نحن نؤيد هذه المهمة كمشكلة علامات تسلسل والت