ترغب بنشر مسار تعليمي؟ اضغط هنا

يذكر MS: يذكر الكيان الشحني باستمرار في النص

MS-Mentions: Consistently Annotating Entity Mentions in Materials Science Procedural Text

418   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعد إجراءات تخليق علوم المواد مجالا واعدا ل NLP العلمي، حيث يمكن أن توفر النمذجة المناسبة لهذه الوصفات نظرة ثاقبة في طرق جديدة لإنشاء المواد. ومع ذلك، فإن التحدي الأساسي في بناء نماذج استخراج المعلومات لإجراءات توليف علوم المواد هو الحصول على ملصقات دقيقة للمواد والعمليات والكيانات الأخرى في تلك الإجراءات. نقدم إحدى كائنات كيان جديدة تذكر التعليقات التوضيحية أكثر من 595 نصية إجرائية تخليق علوم المواد (157،488 رمزا)، والتي توسع بشكل كبير بيانات التدريب المتاحة لمهمة التعرف على الكيان المسمى. نحن نبحث عن مخزون جديد لملفات جديدة مصممة لتوفير شروح متسقة ونهج شرح جديد يهدف إلى زيادة سرعة اتساق وخبراء المجال. تشير دراسات الاتفاقية المشتركة بين النقدية ونماذج الأساس المدربين على البيانات إلى أن كوربوس يوفر شروحا عالية الجودة من هذه الأنواع. تساعد هذه Corpus في وضع أساس النمذجة عالية الجودة في المستقبل لإجراءات التجميعية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

إن اكتشاف المهن في النصوص ذات صلة بمجموعة من سيناريوهات التطبيق الهامة، مثل الذكاء التنافسي والتحليل الاجتماعي والمندول الاجتماعي أو تعدين البيانات المرتبطة بالصحة الصحية. على الرغم من الأهمية وأنواع البيانات غير المتجانسة التي تذكر المهن، كانت جهود التعدين النصية للتعرف عليها محدودة. ويرجع ذلك إلى عدم وجود إرشادات توضيحية واضحة وعالية ذهبية عالية الجودة. يمكن اعتبار بيانات وسائل التواصل الاجتماعي مصدرا ذا صلة للمعلومات للمراقبة في الوقت الفعلي للمجموعات المهنية المعرضة للخطر في سياق الأوبئة مثل واحد CovID-19، مما يسهل استراتيجيات التدخل للمهن في الاتصال المباشر مع الوكلاء المعديين أو المتضررين من العقلية العقلية مشاكل صحية. لتقييم أساليب NLP الحالية وإنشاء الموارد، نظمت المسار الفرعي في SMM4H 2021، وتوفير المشاركين الرئيسيين مع مجموعة قياسية ذهبية من التغريدات المشروح يدويا (IAA من 0.919) بعد المبادئ التوجيهية التوضيحية المتاحة باللغة الإسبانية والإنجليزية، Gazetteer الاحتلال ، إصدار مترجم آلة من التغريدات، و STASTEXT AGEDDINGS. من بين 35 فريقا مسجلا، 11 قدم ما مجموعه 27 أشواط. قام المشاركون الأكثر أداء بنظامين يعتمدون على تقنيات NLP الأخيرة (E.G. المحولات) وحقق 0.93 درجة فئة في تصنيف النص و 0.839 في الاعتراف الكي Corpus: https://doi.org/10.5281/zenodo.4309356.
أدت النجاحات الأخيرة في النمذجة التوليدية العميقة إلى تقدم كبير في توليد اللغة الطبيعية (NLG).أظهرت دمج الكيانات في نماذج الجيل العصبي تحسينات كبيرة من خلال المساعدة في استنتاج الموضوع الموجز وإنشاء محتوى متماسك.لتعزيز دور الكيان في NLG، في هذه الورق ة، نهدف إلى نموذج نوع الكيان في مرحلة فك التشفير لتوليد كلمات سياقية بدقة.نقوم بتطوير نموذج NLG الجديد لإنتاج تسلسل مستهدف بناء على قائمة معينة من الكيانات.يحتوي نموذجنا على وحدة فك ترميز متعددة الخطوات التي تحفز أنواع الكيان في عملية تذكر الجيل.تجارب عملاء أخبار عامين تظهر حقن النوع ينفذ أفضل من نوع خطوط خطوط أسلاف التضمين.
تدرس هذه الورقة مشكلة دقة Aquerence Aquerence Coursence (CDE) التي تسعى إلى تحديد ما إذا كان يذكر الحدث عبر مستندات متعددة تشير إلى نفس الأحداث في العالم الحقيقي.أظهر العمل المسبق فوائد معلومات الوسائد وسياق الوثيقة لحل فور معلومات الحدث.ومع ذلك، لم يتم التقاط هذه المعلومات بفعالية في العمل السابق ل CDECR.لمعالجة هذه القيود، نقترح نموذجا تعليميا عميقا جديدا ل CDEG الذي يقدم الرصاص الهرمي للشبكات العصبية التنافعية (GCN) إلى إشراف الكيان والحكام المشترك.على هذا النحو، تمكن GCNs مستوى الجملة من ترميز كلمات السياق المهمة لذكر الحدث وحججها بينما يهدف GCN على مستوى المستند إلى تذكر هياكل التفاعل الحدث والحجج لحساب تمثيلات الوثيقة لأداء CDU.يتم إجراء تجارب واسعة لإظهار فعالية النموذج المقترح.
في حين أن نماذج قوية مدربة مسبقا قد تحسنت بطلاقة نماذج توليد النص، فإن كفاية الدلالة - القدرة على توليد نص مخلص من الدلالة إلى الإدخال - لا تزال قضية ملحوظة. في هذه الورقة، نقدم كفايات دهالية التقييم التلقائية الجديدة، والتي يمكن استخدامها لتقييم نما ذج توليد المدى التي تنفذ الرسوم البيانية التي لفظها RDF (إطار وصف الموارد) نص يحتوي على تذرف من الكيانات التي تحدث في RDF إدخال. هذا مهم مثل رودس موضوع وكيانات الكائنات التي تشكل 2/3 من المدخلات. نحن نستخدم المقياس الخاص بنا بمقارنة 25 نماذج من المهام المشتركة Webnlg وندرش الارتباط بنتائج التقييمات البشرية للكفايات الدلالية. نظرا لأنه بينما يرتبط متري لدينا مع درجات التقييم البشري، يختلف هذا الارتباط مع تفاصيل إعداد التقييم البشري. هذا يشير إلى أنه من أجل قياس كفاية الكيان التي تتخذ من النصوص التي تم إنشاؤها، قد يكون متريا أوتوماتيا مثل المرء المقترح هنا أكثر موثوقية، حيث كان أقل عرضية وأكثر ركزا على اللفظ الصحيح للمدخلات، من تدابير التقييم البشرية.
إن إزالة الكيانات المسماة (NED)، والتي تنطوي على رسم الخرائط النصية للكيانات الهيكلية، تحديا بشكل خاص في المجال الطبي بسبب وجود كيانات نادرة.تقتصر الأساليب الحالية بوجود الموارد الهيكلية الخشونة في قواعد المعرفة الطبية الحيوية وكذلك استخدام مجموعات ا لبيانات التدريبية التي توفر تغطية منخفضة على الموارد غير الشائعة.في هذا العمل، نتعلم هذه المشكلات من خلال اقتراح طريقة تكامل بيانات عبر المجال التي تنقل المعرفة الهيكلية من قاعدة معارف النص العامة إلى المجال الطبي.نحن نستخدم مخطط الاندماج لدينا لزيادة الموارد الهيكلية وتوليد مجموعة بيانات كبيرة بييوميديا للأحاد المحاكمة.يحقق نموذج عائليتنا مع المعرفة الهيكلية المحقونة أداء حديثة على مجموعة بيانات القياس الطبية القياسية: التوصيلات و BC5CDR.علاوة على ذلك، فإننا نحسن الغموض من كيانات نادرة تصل إلى 57 نقطة دقة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا