ترغب بنشر مسار تعليمي؟ اضغط هنا

كيمياء: كيمياء الحبيبات الجميلة المسماة الاعتراف كيان مع الإشراف البعيد بصورة جيدة

ChemNER: Fine-Grained Chemistry Named Entity Recognition with Ontology-Guided Distant Supervision

277   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يحتاج تحليل الأدبيات العلمي إلى التعرف على الكيان المسمى بشكل جيد (NER) لتوفير مجموعة واسعة من المعلومات للاكتشاف العلمي. على سبيل المثال، يحتاج أبحاث الكيمياء إلى دراسة العشرات إلى مئات أنواع الكيانات المتميزة والجمالية المميزة، مما يجعل التعليق التوضيحي ثابت ودقيقا صعبا حتى للحشود من خبراء المجال. من ناحية أخرى، يمكن الوصول بسهولة إلى أونتالولوجيات خاصة بالمجال وقواعد المعرفة (KBS) بسهولة، أو شيدت، أو متكامل، مما يجعل الإشراف البعيد واقعية للكيمياء النيذبة الناشئة. في الإشراف البعيد، يتم إنشاء تسميات التدريب عن طريق مطابقة تذكر في وثيقة مع المفاهيم في قواعد المعرفة (KBS). ومع ذلك، فإن هذا النوع من مطابقة KB يعاني من تحديين رئيسيين: التعليق التوضيحي غير الكامل والشروح الصاخبة. نقترح كيمنر، وهي طريقة توجيهية، تحت مضاد المسترد بها، تحت إشراف صاخبة للكيمياء النيذاري المحبوسين عن هذه التحديات. إنه يرفع هيكل OnTology لنوع الكيمياء لتوليد ملصقات بعيدة مع أساليب رواية من الغموض متعددة الأطراف متعددة الأطباق متعددة الأطباق. إنه يحسن بشكل كبير من توليد التسمية البعيدة للتدريب على تسلسل التسلسل اللاحق. نحن نقدم أيضا مجموعة بيانات من الخبراء، وكيمياء NER مع 62 نوعا من كيمياء كيمياء دقيقة (على سبيل المثال، المركبات الكيميائية والتفاعلات الكيميائية). تظهر النتائج التجريبية أن CHEMMNER فعالة للغاية، مما يتفوق بشكل كبير على أساليب NER-Artication NER (مع تحسن درجة F1 المطلقة).



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لأكثر من ثلاثين عاما، قام الباحثون بتطوير وتحليل طرق لتحريض الأشجار الكامنة كهدوث لنهج التحليل النحوي غير المقترح. ومع ذلك، لا تزال الأنظمة الحديثة لا تؤدي بشكل جيد بما فيه الكفاية مقارنة بنظيراتهم الخاضعة للإشراف للحصول على أي استخدام عملي باسم التع ليق الهيكلية للنص. في هذا العمل، نقدم تقنية تستخدم إشراف بعيد في شكل قيود سبعة (أي عبارة قوية) لتحسين الأداء في تحليل الدوائر الانتخابية غير المزدوجة. باستخدام عدد قليل نسبيا من قيود الأمان، يمكننا تحسين الإخراج بشكل كبير من Diora، وهو نظام تحليل غير مناسب بالفعل منافسة. بالمقارنة مع التعليق التوضيحي في شجرة التحليل الكامل، يمكن الحصول على قيود Span مع الحد الأدنى من الجهد، كما هو الحال مع معجم مشتق من ويكيبيديا، للعثور على مباريات نصية دقيقة. تجاربنا تظهر قيود الأمان على أساس الكيانات على تحسين تحليل الدوائر الانتخابية على بنك WSJ Penn TreeBank الإنجليزية بأكثر من 5 F1. علاوة على ذلك، تمتد طريقنا إلى أي مجال يتم فيه تحقيق قيود سبعة بسهولة، وكدراسة حالة نوضح فعاليتها من خلال تحليل النص الطبي الطبيعي من مجموعة بيانات الحرفية.
نحن نقدم Rackbert، وهي طريقة ما قبل التدريب التي تزيد من طرازات اللغة بالقدرة على السبب في العلاقات الطويلة المدى والسياقات المختلفة المحتملة. على عكس أساليب ما قبل التدريب الموجودة التي تحصدها فقط إشارات تعليمية فقط من السياقات المحلية للنصوص التي ت حدث بشكل طبيعي، نقترح فكرة عمومية للإشراف البعيد توصيل قطع النص والجداول متعددة تلقائيا لإنشاء أمثلة تدريبية مسبقا تتطلب منطق طويل المدى. يتم محاكاة أنواع مختلفة من المنطق، بما في ذلك تقاطع أجزاء متعددة من الأدلة، مدفوعة من قطعة واحدة من الأدلة إلى آخر، والكشف عن الحالات التي لا يمكن إجراؤها. نقوم بإجراء تقييم شامل حول مجموعة متنوعة من الأسئلة الاستخراجية التي تربط عن مجموعات البيانات التي تتراوح من قفزة واحدة من قفصات متعددة ومنصات فقط إلى الجدول فقط إلى الهجين والتي تتطلب إمكانيات التفكير المختلفة وإظهار أن Rackberber يحقق تحسنا ملحوظا على مجموعة من القوية خطوط الأساس. تظهر تجارب قليلة أكثر أن طريقتنا السابقة للتدريب على تحسين كفاءة عينة.
على الرغم من أن النماذج الكبيرة المدربة مسبقا (E.G.، Bert، Ernie، Xlnet، GPT3 وما إلى ذلك) قدمت أداء أعلى في النمذجة SEQ2SEQ، وغالبا ما تعوق عمليات نشرها في تطبيقات العالم الحقيقي بواسطة الحسابات المفرطة وطلب الذاكرة المعنية. بالنسبة للعديد من التطبي قات، بما في ذلك التعرف على الكيان المسمى (NER)، فإن مطابقة النتيجة الحديثة تحت الميزانية قد جذبت اهتماما كبيرا. رسم الطاقة من التقدم الأخير في تقطير المعرفة (دينار كويتي)، يعرض هذا العمل مخطط تقطير جديد لنقل المعرفة بكفاءة المستفادة من النماذج الكبيرة إلى نظيرها أكثر بأسعار معقولة. يسلط حلنا الضوء على بناء الملصقات البديلة من خلال خوارزمية K-Best Viterbi إلى معرفة تقطر من طراز المعلم. لإحداث المعرفة إلى حد ما في نموذج الطالب، نقترح خطة تقطير متعددة الحبيبات، التي تدمج عبر الانتروبي الصليب المشارك في مجال عشوائي مشروط (CRF) والتعلم الغامض. للتحقق من صحة فعالية اقتراحنا، أجرينا تقييم شامل على خمسة نير معايير، الإبلاغ عن مكاسب أداء المجلس عبر المجلس بالنسبة للفنون السابقة المتنافسة. نناقش نتائج الآراء بشكل أكبر لتشريح مكاسبنا.
يقلل اعتراف الكيان المسمى بشكل مسمى (DS-NER) بكفاءة تكاليف العمالة بل في الوقت نفسه يعاني من ضوضاء الملصقات بسبب الافتراض القوي للإشراف البعيد.عادة ما تشتمل الحالات المسماة بشكل خاطئ على أرقام التعليقات التوضيحية غير المكتملة وغير الدقيقة، في حين أن معظم أعمال Denoising السابقة تشعر بالقلق فقط بنوع من الضوضاء وتفشل في استكشاف معلومات مفيدة بالكامل في مجموعة التدريب.لمعالجة هذه المشكلة، نقترح نماذج تعليمية قوية تسمى التعلم التعاوني الذاتي التعاونية (SCDL)، والتي تدرب بشاشات اثنين من شبكات الطلاب المعلمين بطريقة منفعة متبادلة لتنفيذ مصفاة التسمية الصاخبة بشكل متكرر.تم تصميم كل شبكة لاستغلال ملصقات موثوقة عبر Denoising الذاتي، ويتواصل شبكتان مع بعضهما البعض لاستكشاف التعليقات التوضيحية غير الموثوق بها من خلال تنظيم تعاوني.نتائج تجريبية واسعة النطاق على خمسة مجموعات بيانات حقيقية عالمية توضح أن SCDL متفوقة على طرق DS-NER DENOSION حول DS-NER.
نحن نقدم مخطط شرح حالة إعلام من المحبوس الذي يتبع مباشرة من نموذج وحدة مجردة تدريجية لمعالجة الحوار عند استخدامها داخل إعداد متعدد الوسائط والشريط المشترك.نوضح نموذج الوحدة الإضافية وإعطاء طلب مثال باستخدام مجموعة بيانات الروايات المترجمة، ثم تقديم طرق للبحث في المستقبل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا