ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم كيان تشابه مع العديد من المباريات التقريبية ل Biomedical NER

Learning Entity-Likeness with Multiple Approximate Matches for Biomedical NER

283   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الكيانات الطبية الحيوية المسماة معقدة، لذلك تم استخدام مطابقة تقريبية لتحسين تغطية الكيان.ومع ذلك، فإن نهج المطابقة التقريب المعتادة يجلب نتيجة مطابقة واحدة فقط، والتي غالبا ما تكون صاخبة.في هذا العمل، نقترح طريقة لنقل الطبية الحيوية التي يجلب مباريات تقريبية متعددة لجملة معينة للاستفادة من أشكالها لتقدير تشابه الكيان.يستخدم النموذج تجمع لتجاهل المعلومات غير الضرورية من نتائج المطابقة الصاخبة، وتعلم كيان تشابه العبارة مع العديد من المباريات التقريبية.النتائج التجريبية على ثلاثة مجموعات بيانات معطرة من المجال الطبي الطبيعي، BC2GM، مرض NCBI، و BC4Chemd، إظهار الفعالية.يعمل نموذجنا في تحسين المتوسط بنسبة تصل إلى +0.21 نقطة مقارنة مع NER القائم على BIOBERT.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

هناك اهتمام متزايد بالتعلم المستمر (CL)، حيث أصبحت خصوصية البيانات أولوية للتطبيقات الحقيقية لتعلم الآلة في العالم.وفي الوقت نفسه، لا يزال هناك نقص في معايير NLP الأكاديمية التي تنطبق على إعدادات CL واقعية، وهي تحدي كبير للنهوض بالمجال.في هذه الورقة، نناقش بعض خصائص البيانات غير الواقعية لمجموعات البيانات العامة، ودراسة تحديات التعلم المستمر واقعي واقعي وكذلك فعالية بروفات البيانات كوسيلة للتخفيف من خسارة الدقة.نحن نبني مجموعة بيانات CL NER من مجموعة بيانات موجودة متوفرة للجمهور وإصدارها جنبا إلى جنب مع الكود إلى مجتمع البحث.
أظهرت الدراسات الحديثة في التعلم العميق تقدما كبيرا في التعرف على الكيان المسمى (NER).ومع ذلك، تفترض أن معظم الأعمال الموجودة تفرض شرحا نظيفا للبيانات، في حين أن سيناريوهات العالم الواقعي تشتمل عادة على كمية كبيرة من الضوضاء من مجموعة متنوعة من المصا در (E.G.، الزائفة أو الضعيفة أو الشريحية البعيدة).يدرس هذا العمل ner تحت إعداد صاخبة تحمل تصنيف مع تقدير الثقة المعايرة.بناء على الملاحظات التجريبية لمختلف الديناميات التدريبية للتسميات الصاخبة والنظيفة، نقترح استراتيجيات لتقدير درجات الثقة بناء على افتراضات الاستقلال المحلية والعالمية.نحن نتهم جزئيا تسميات الثقة المنخفضة بنموذج CRF.نقترح طريقة معايرة لعشرات الثقة بناء على هيكل ملصقات الكيان.نحن ندمج نهجنا في إطار التدريب الذاتي لتعزيز الأداء.تجارب في إعدادات صاخبة عامة مع أربع لغات وإعدادات المسمى المسمى أظهرت فعالية طريقتنا.
تتحمل أنظمة Training NLP عادة إمكانية الوصول إلى البيانات المشروحة التي تحتوي على ملصق بشري واحد لكل مثال. بالنظر إلى وضع علامات غير كاملة من الحنجرة والغموض الملازمين من اللغة، فإننا نفترض أن العلامة الفردية ليست كافية لتعلم مجموعة تفسير اللغة. نستك شف مخططات توزيع توضيحية جديدة، وتعيين ملصقات متعددة لكل مثال لمجموعة فرعية صغيرة من أمثلة التدريب. تقديم أمثلة متعددة التوصيل هذه بتكلفة التعليق عدد أقل من الأمثلة التي تجلب مكاسب واضحة حول مهمة مهمة وكتابة الكيان في اللغة الطبيعية، حتى عندما نتدرب أولا مع بيانات تسمية واحدة ثم ضبط أمثلة ملصقات متعددة. تمديد إطار تكبير بيانات مختلط، نقترح خوارزمية التعلم التي يمكن أن تتعلم من الأمثلة التدريبية مع كمية مختلفة من التوضيحية (مع صفر، واحد، أو ملصقات متعددة). تجمع هذه الخوارزمية بكفاءة مع الإشارات من بيانات التدريب غير المتكافئة وتجلب مكاسب إضافية في ميزانية التوضيحية المنخفضة وإعدادات المجال الصليب. معا، تحقق طريقة لدينا مكاسب ثابتة في مهام اثنين، مما يشير إلى أن التسميات التوزيعية بشكل غير متساو بين أمثلة التدريب يمكن أن تكون مفيدة للعديد من مهام NLP.
ركز العمل السابق على ربط الكيان على الموارد المستهدفة التي يذكر الكيان المسمى غير المتداخلة غير المتداخلة، وغالبا ما تكون في بيانات من ويكيبيديا، أي Wikification.في هذه الورقة، نقدم وتقييم Wikigum، ومجموعة بيانات مميزة بالكامل، والتي تغطي جميع الإشرا هات من الكيانات المسماة، بما في ذلك تذكرها غير المسماة وغير المسماة، وكذلك تذكر متداخلة داخل الإشراهات الأخرى.تغطي مجموعة البيانات مجموعة واسعة من 12 نوعا مكتوبا وتحطمنا، والتي لم يتم تضمين معظمها في كيان يربط الجهود حتى الآن، مما يؤدي إلى ضعف الأداء من قبل نظام Sota المحدد في تقييمنا.يتيح توافر مجموعة متنوعة من التعليقات التوضيحية الأخرى لنفس البيانات أيضا البحث عن كيانات في السياق.
إن كيان مشترك واستخراج العلاقات يمثل تحديا بسبب التفاعل المعقد للتفاعل بين التعرف على الكيان المسمى واستخراج العلاقة. على الرغم من أن معظم الأعمال القائمة تميل إلى تدريب هذه المهامتين المشتركين من خلال شبكة مشتركة، إلا أنها تفشل في الاستفادة الكاملة من الترابط بين أنواع الكيان وأنواع العلاقات. في هذه الورقة، نقوم بتصميم شبكة مزدوجة متزامنة رواية (SDN) مع اهتمام عبر النوع عبر الانتباه بشكل منفصل وتفاعي تفاعلي أنواع الكيان وأنواع العلاقات. من ناحية، يعتمد SDN اثنين من النوع BI اتجاهي ISOMORPHIC LSTM لترميز التمثيلات المحسنة نوع الكيان والتمثيلات المحسنة نوع العلاقة، على التوالي. من ناحية أخرى، نماذج SDN صراحة الترابط بين أنواع الكيان وأنواع العلاقات عبر آلية الاهتمام عبر النوع. بالإضافة إلى ذلك، نقترح أيضا استراتيجية تعليمية متعددة المهام الجديدة عبر النمذجة تفاعل نوعين من المعلومات. تجارب مجموعات بيانات NYT و WEBNLG تحقق من فعالية النموذج المقترح، وتحقيق الأداء الحديث في الفن.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا