ترغب بنشر مسار تعليمي؟ اضغط هنا

استخراج بيانات قياس خصائص المواد من المقالات العلمية

Extracting Material Property Measurement Data from Scientific Articles

253   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

غالبا ما تعوق التنبؤ القائم على التعلم في مجال خصائص المواد بسبب عدم وجود مجموعات بيانات تدريبية كبيرة بما فيه الكفاية. غالبية بيانات القياس هذه مضمنة في الأدبيات العلمية والقدرة على استخراج هذه البيانات تلقائيا ضرورية لدعم تطوير أساليب التنبؤ بالخصائص الموثوقة. في هذا العمل، نصف منهجية لتطوير إطار استخراج الممتلكات التلقائي باستخدام ذوبان المواد كخاصية الهدف. نخلق مجموعة بيانات تدريبية وتقييم تحتوي على علامات للكيانات المتعلقة بالذوبان باستخدام مزيج من التعبيرات العادية والعلامة اليدوية. ثم قارنا خمسة نماذج التعرف على الكيان الاستفادة من كلا من المعماريين على مستوى الرمز المميز ومضمون مهمة تصنيف أسماء المذابة وقيم الذوبان وحدات الذوبان. بالإضافة إلى ذلك، نستكشف نهج محاولات رواية يرفع أدوات استخراج الاسم الكيميائي والكمية الآلي لتوليد مجموعات بيانات كبيرة لا تعتمد على العلامات اليدوية المكثفة. أخيرا، نقوم بإجراء تحليل لتحديد أسباب أخطاء التصنيف.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يؤدي استخراج الموجات القصيرة تلقائيا من المستندات العلمية إلى تمثيل موجز قيم يمكن أن يفهم البشر ويمكنهم معالجة الآلات للمهام، مثل استرجاع المعلومات، تجميع المقالات وتصنيف المادة.تهتم هذه الورقة بأجزاء مقالة علمية يجب أن تعطى كمدخلات لطرق استخراج الحر ارة.تأخذ أساليب التعلم العميق الحديثة الألقاب والملخصات كمدخلات بسبب زيادة التعقيد الحسابي في معالجة التسلسلات الطويلة، في حين أن الأساليب التقليدية يمكن أن تعمل أيضا مع النصوص الكاملة.العناوين والملخصات كثيفة في الجماهيرية، ولكن غالبا ما تفوت جوانب مهمة من المقالات، في حين أن النصوص الكاملة من ناحية أخرى أكثر ثراء في الجماهيرية ولكن الكثير من الضويرة.لمعالجة هذه المفاضلة، نقترح استخدام نماذج تلخيص الاستخراجية على النصوص الكاملة للمستندات العلمية.تظهر دراستنا التجريبية على 3 مجموعات مقالات باستخدام 3 طرق استخراج المفاتيح 3 نتائج واعدة.
في هذه الورقة، ندرس أهمية السياق في التنبؤ بالجدارة من الجمل في المقالات العلمية.نحن صياغة هذه المشكلة كملمس تسلسل تسلسل باستخدام نموذج Bilstm هرمي.نحن نساهم في مجموعة بيانات قياسية جديدة تحتوي على أكثر من مليوني جمل وملمياتها المقابلة.نحافظ على ترتي ب الجملة في هذه البيانات وأداء انقسامات قطار / اختبار على مستوى المستند، والتي تتيح الأهم من دمج المعلومات السياقية في عملية النمذجة.نحن نقيم النهج المقترح على ثلاثة مجموعات من مجموعات البيانات القياسية.تؤدي نتائجنا إلى تحديد فوائد استخدام السياق ومشروع السياق للجدارة.وأخيرا، من خلال تحليل الأخطاء، نحن نقدم رؤى في الحالات التي يلعب فيها السياق دورا أساسيا في التنبؤ بالجدر على الاقتباس.
تظهر النهج الحديثة القائمة على المحولات نتائج واعدة على استخراج المعلومات العلمية العلائقية. تركز مجموعات البيانات الحالية على وصف رفيع المستوى لكيفية تنفيذ البحث. بدلا من ذلك، نركز على التفاصيل الدقيقة لكيفية تقديم الرابطات التجريبية من خلال بناء SC ICLAIL، وهي مجموعة بيانات من المطالبات العلمية المستمدة من أوراق العلوم الاجتماعية والسلوكية (SBS)، PubMed، وحالات الحبل 19. يشتمل مخطط شرح الرسم البياني الربيعي على أن الكيانات الخشنة فقط يمتد كعقد العقد والعلاقات كحواف بينهما، ولكن أيضا سمات الحبيبات الدقيقة التي تعدل الكيانات وعلاقاتها، لما مجموعه 12738 ملميا في الشئ. من خلال إدراج المزيد من أنواع الملصقات وأكثر من ضعف كثافة التسمية من مجموعات البيانات السابقة، يلتقط SCICIMAL مع الجمعيات السببية والمقارنة والتنبؤ والإحصائية والتناسبية على المتغيرات التجريبية إلى جانب مؤهلاتهم وسلعيتهم وأدليلهم. نحن نقوم بتوسيع العمل في كيان مشترك ومقرها المحول واستخراج العلاقات لاستنتاج مخططنا بشكل فعال، مما يدل على وعد الرسوم البيانية المعرفة بحبائها الجميلة في المطالبات العلمية وما بعدها.
تصف هذه الورقة النظام الذي بنناه كفريق YNU-HPCC في مهمة Semeval-2021 11: NLPContribeGraph. تتضمن هذه المهمة أولا تحديد الجمل في المقالات العلمية المعينة للغة الطبيعية (NLP) التي تعكس مساهمات البحث من خلال التصنيف الثنائي؛ ثم تحديد المصطلحات العلمية ا لأساسية وعبارات علاقتها من جمل هذه المساهمة عن طريق وضع التسلسل؛ وأخيرا، يتم تصنيف هذه المصطلحات والعلاقات العلمية هذه، وحددها، ويتم تنظيمها في ثلاثة أضعاف ثلاثة أضعاف لتشكيل رسم بياني للمعرفة بمساعدة تصنيف Multiclass وتصنيف متعدد التسميات. قمنا بتطوير نظام لهذه المهمة باستخدام نموذج تمثيل لغوي مدرب مسبقا يسمى Bert الذي يمثل تمثيلات تشفير ثنائية الاتجاه من المحولات، وحقق نتائج جيدة. متوسط ​​درجة F1 للتقييم المرحلة 2، الجزء الأول كان 0.4562 واحتل المرتبة 7، ومتوسط ​​درجة F1 لمرحلة التقييم 2، الجزء الثاني كان 0.6541، وأيضا المرتبة 7.
يمكن استخراج المعلومات المهيكلة من المحادثات الطبية تقليل عبء الوثائق للأطباء ومساعدة المرضى الذين يتبعون مع خطة الرعاية الخاصة بهم.في هذه الورقة، نقدم مهمة جديدة لاستخراج المواعيد يمتد من المحادثات الطبية.نحن نؤيد هذه المهمة كمشكلة علامات تسلسل والت ركيز على استخراج يمتد لسبب الموعد والوقت.ومع ذلك، فإن التسجيل المحادثات الطبية باهظة الثمن، وتستغرق وقتا طويلا، ويتطلب من خبرات مجال كبيرة.وبالتالي، نقترح أن نستفيد مناهج الإشراف الضعيفة، وهي الإشراف غير المكتملة والإشراف غير الدقيق، ونهج إشراف هجين وتقييم كل من ELMO - ELMO وبرت خاصة بالمجال باستخدام نماذج علامات التسلسل.أفضل نموذج أداء هو متغير Bertiant الخاص بالمجال باستخدام الإشراف الهجين الضعيف والحصول على درجة F1 79.32.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا