ترغب بنشر مسار تعليمي؟ اضغط هنا

Wikigum: كيان شامل يربط ل Wikification في 12 نوعا

WikiGUM: Exhaustive Entity Linking for Wikification in 12 Genres

433   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

ركز العمل السابق على ربط الكيان على الموارد المستهدفة التي يذكر الكيان المسمى غير المتداخلة غير المتداخلة، وغالبا ما تكون في بيانات من ويكيبيديا، أي Wikification.في هذه الورقة، نقدم وتقييم Wikigum، ومجموعة بيانات مميزة بالكامل، والتي تغطي جميع الإشراهات من الكيانات المسماة، بما في ذلك تذكرها غير المسماة وغير المسماة، وكذلك تذكر متداخلة داخل الإشراهات الأخرى.تغطي مجموعة البيانات مجموعة واسعة من 12 نوعا مكتوبا وتحطمنا، والتي لم يتم تضمين معظمها في كيان يربط الجهود حتى الآن، مما يؤدي إلى ضعف الأداء من قبل نظام Sota المحدد في تقييمنا.يتيح توافر مجموعة متنوعة من التعليقات التوضيحية الأخرى لنفس البيانات أيضا البحث عن كيانات في السياق.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

حققت أنظمة ربط الكيان (EL) نتائج مثيرة للإعجاب على المعايير القياسية بشكل أساسي بفضل التمثيلات السياقية المقدمة من نماذج اللغة المحددة مسبقا.ومع ذلك، لا تزال هذه الأنظمة تتطلب كميات ضخمة من البيانات - ملايين الأمثلة المسمى - في أفضل حالاتهم، مع أوقات تدريبية تتجاوز غالبا عدة أيام، خاصة عندما تتوفر موارد حسابية محدودة.في هذه الورقة، ننظر إلى كيفية استغلال التعرف على الكيان المسمى (ner) لتضييق الفجوة بين أنظمة EL المدربين على كميات عالية ومنخفضة من البيانات المسمى.وبشكل أكثر تحديدا، نوضح كيف وإلى أي مدى يمكن للنظام أن يستفيد نظام EL من NER لتعزيز تمثيلات كيانه، وتحسين اختيار المرشح، وحدد عينات سلبية أكثر فعالية وفرض قيود صلبة وناعمة على كيانات الإخراج.نطلق سراح البرامج ونقاط التفتيش النموذجية - في https://github.com/babelscape/ner4el.
الكيانات الطبية الحيوية المسماة معقدة، لذلك تم استخدام مطابقة تقريبية لتحسين تغطية الكيان.ومع ذلك، فإن نهج المطابقة التقريب المعتادة يجلب نتيجة مطابقة واحدة فقط، والتي غالبا ما تكون صاخبة.في هذا العمل، نقترح طريقة لنقل الطبية الحيوية التي يجلب مباريا ت تقريبية متعددة لجملة معينة للاستفادة من أشكالها لتقدير تشابه الكيان.يستخدم النموذج تجمع لتجاهل المعلومات غير الضرورية من نتائج المطابقة الصاخبة، وتعلم كيان تشابه العبارة مع العديد من المباريات التقريبية.النتائج التجريبية على ثلاثة مجموعات بيانات معطرة من المجال الطبي الطبيعي، BC2GM، مرض NCBI، و BC4Chemd، إظهار الفعالية.يعمل نموذجنا في تحسين المتوسط بنسبة تصل إلى +0.21 نقطة مقارنة مع NER القائم على BIOBERT.
الخلاف بين المبرمجين هو في كل مكان في جميع مجموعات البيانات المشروحة بأحكام بشرية في كل من معالجة اللغة الطبيعية ورؤية الكمبيوتر.ومع ذلك، تفترض معظم أساليب تعلم الآلات الأكثر إشرافا أن التفسير المفضل الوحيد موجود لكل عنصر، وهو في أحسن الأحوال مثالية. كان الهدف من مهمة Semeval-2021 المشتركة بشأن التعلم مع الخلافات (LE-WI-I-DI) هو توفير إطار اختبار موحد لأساليب التعلم من البيانات التي تحتوي على شروح متعددة وربما متناقضة تغطي مجموعات البيانات الأكثر شهرة التي تحتوي على معلومات حول الخلافاتتفسير اللغة وتصنيف الصور.في هذه الورقة وصفنا المهمة المشتركة ونتائجها.
نظرا لعدد كبير من الكيانات في قواعد المعرفة الطبية الحيوية، فإن جزء بسيط من الكيانات الصغيرة فقط بيانات التدريب المسمى. وهذا يستلزم كيان ربط النماذج التي يمكن أن تصل إلى ربط تذكر الكيانات غير المرئية باستخدام التمثيلات المستفادة للكيانات. يتذكر كل من هما السابقة بشكل مستقل، وتجاهل العلاقات داخل الوثائق وعبر الوثائق بين الكيان. يمكن أن تكون هذه العلاقات مفيدة للغاية لربط الذكور في النص الطبي الطبيعي حيث غالبا ما تذكر القرارات ذات الصلة وجود نموذج عام أو متخصص للغاية. في هذه الورقة، نقدم نموذجا يمكن فيه إلقاء النموذج الذي يمكن فيه اتخاذ قرارات مرتبطة فقط بالربط بالكيان الأساسي المعرفي ولكن أيضا من خلال تجميع تذكر معا عبر التجميع والاشتراك في ربط التوقعات. في تجارب في أكبر مجموعة بيانات بيئية متوفرة للجمهور، نحسن أفضل التنبؤ المستقل للكيان الذي يربط بمقدار 3.0 نقطة من الدقة، ويحسن نموذج الاستدلال القائم على التجميع كيان يربط بمقدار 2.3 نقطة.
ربط الكيان مشكلة مهمة في العديد من التطبيقات. تم تصميم معظم الحلول السابقة للإعدادات حيث تتوفر بيانات التدريب المشروح، ومع ذلك، ليس الحال في العديد من المجالات. نقترح طريقة ربط كيان خفيف الوزن وقابل للتطوير، وهي eigenthemes، والتي تعتمد فقط على توافر أسماء الكيان وقاعدة المعرفة المرجعية. يميل Eigenthemes إلى حقيقة أن الكيانات المذكورة حقا في وثيقة (الكيانات الذهبية ") تميل إلى تشكيل مجموعة فرعية كثيفة من مجموعة جميع الكيانات المرشحة في الوثيقة. تحدث هندسية، عند تمثيل الكيانات كمتجهات عن طريق بعض التضمين، تميل الكيانات الذهبية إلى الاستلقاء في مساحة فرعية منخفضة الرتب من مساحة التضمين الكامل. يحدد eigenthemes هذه الفورية الفرعية باستخدام تحلل القيمة المفرد والكيانات المرشحة وفقا لقربها من الفضاء الفرعي. على الجبهة التجريبية، نقدم خطوط خطوط خطوط أخرى قوية تقارن بشكل إيجابي (وأحيانا تفوقت) ​​الحالة الحالية للفن. تجارب واسعة النطاق على مجموعات البيانات القياسية من مجموعة متنوعة من مجالات العالم الحقيقي تعرض فعالية نهجنا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا