ترغب بنشر مسار تعليمي؟ اضغط هنا

دمج المعلومات المعجمية في تمثيلات حي الكيان التنبؤ بالعلاقة

Integrating Lexical Information into Entity Neighbourhood Representations for Relation Prediction

346   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التنبؤ بالعلامة المستنيرة عن مجموعة من النصوص وقواعد المعرفة المنوية، يجمع بين إكمال الرسوم البيانية المعرفة مع استخراج العلاقات، هي مهمة درس صغيرة نسبيا.النظام الذي يمكن أن يؤدي هذه المهمة له القدرة على تمديد مجموعة تعسفية من جداول قاعدة البيانات العلائقية مع المعلومات المستخرجة من Corpus Document.يتناول OpenKi [1] هذه المهمة من خلال استخراج الكيانات المسماة ويستند عبر أدوات Openie، ثم تعلم تضمين العلاقات من الرسم البياني لعلاقة الكيانات الناتجة عن التنبؤ بالعلاقة، مما يتفوق على النهج السابقة.نقدم امتدادا من Openki الذي يشتمل على مذكرات من التمثيلات القائمة على النصوص للكيانات والعلاقات.نوضح أن هذا يؤدي إلى زيادة كبيرة في الأداء على نظام دون هذه المعلومات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

عادة ما تعتبر التشفير العصبي للأسماء الطبية الحيوية قوية إذا تم استغلال التمثيلات بشكل فعال لمختلف مهام NLP المصب المختلفة. لتحقيق ذلك، تحتاج المشفر إلى نموذج الدلالات الطبية الحيوية خاصة بالمجال مع تنافس التطبيق العالمي للتطبيق العالمي للإشراف على ا لإشراف على الذات. ركز العمل السابق بشأن التمثيلات القوية على تعلم الفروق المنخفضة المستوى بين أسماء المفاهيم الطبية الحيوية المحبوبة. يمكن أيضا تجميع هذه المفاهيم الرخيصة هذه معا لتعكس التفرقات الدلالية عالية المستوى والأكثر إنشيا، مثل تجميع أسماء اللحام اللدغة والحمى التي تنقلها القراد معا بموجب وصف ثقب الجلد. لم يتم تأكيده من التجريبية حتى الآن أن التدريب على ترميز الأسماء الطبية الحيوية على التمييز الدقيق يؤدي تلقائيا إلى الترميز من أسفل إلى أسفل من هذه الدلالات ذات المستوى الأعلى. في هذه الورقة، نظير على أن هذا التأثير القاع موجودا، لكنه لا يزال محدودا نسبيا. كحل، نقترح نظام تدريب متعدد المهام القابل للتوسيع لترميز الاسم الطبي الطبيعي الذي يمكن أن يتعلم أيضا تمثيلات قوية باستخدام فصول دلالية عالية المستوى فقط. هذه التمثيلات يمكن أن تعميم كل من القمة المتابعة وكذلك من أعلى إلى أسفل بين مختلف التسلسلات الدلالية. علاوة على ذلك، نوضح كيف يمكن استخدامها خارج الصندوق لتحسين الكشف غير المدعوم من الارتفاع غير المرغوب فيها، مع الاحتفاظ بأداء قوي على مختلف معايير المرتبطة الدلالية.
اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديث ة تظهر أن مثل هذه الملصقات تتخذ المزيد من الخطوات التدريبية التي سيتم حفظها وتكون نسيانها بشكل أكثر تواترا من الملصقات النظيفة، وبالتالي يتم تحديدها في التدريب. بدافع من هذه الخصائص، نقترح إطارا بسيطا بانتظام بسيطة لاستخراج المعلومات التركز على الكيان، والذي يتكون من العديد من النماذج العصبية مع هياكل متطابقة ولكن تهيئة معلمة مختلفة. يتم تحسين هذه النماذج بشكل مشترك مع الخسائر الخاصة بالمهمة ويتم تنظيمها لتوليد تنبؤات مماثلة تستند إلى فقدان اتفاقية، تمنع التجديدات الخارجية على الملصقات الصاخبة. تظهر تجارب واسعة على نطاق واسع على نطاق واسع ولكن صاخبة لاستخراج المعلومات، Tacred و Conll03، فعالية إطار عملنا. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
أدت النجاحات الأخيرة في النمذجة التوليدية العميقة إلى تقدم كبير في توليد اللغة الطبيعية (NLG).أظهرت دمج الكيانات في نماذج الجيل العصبي تحسينات كبيرة من خلال المساعدة في استنتاج الموضوع الموجز وإنشاء محتوى متماسك.لتعزيز دور الكيان في NLG، في هذه الورق ة، نهدف إلى نموذج نوع الكيان في مرحلة فك التشفير لتوليد كلمات سياقية بدقة.نقوم بتطوير نموذج NLG الجديد لإنتاج تسلسل مستهدف بناء على قائمة معينة من الكيانات.يحتوي نموذجنا على وحدة فك ترميز متعددة الخطوات التي تحفز أنواع الكيان في عملية تذكر الجيل.تجارب عملاء أخبار عامين تظهر حقن النوع ينفذ أفضل من نوع خطوط خطوط أسلاف التضمين.
في حين أن الكثير من الأبحاث قد تم في توليف الرسائل النصية إلى صورة، فقد تم إجراء القليل من العمل لاستكشاف استخدام الهيكل اللغوي لنص المدخلات. هذه المعلومات أكثر أهمية بالنسبة لتصور القصة لأن مدخلاتها لها هيكل سرد صريح يحتاج إلى ترجمة إلى تسلسل الصورة (أو قصة مرئية). أظهر العمل المسبق في هذا المجال أن هناك مجالا واسعا للتحسين في تسلسل الصور الناتج من حيث الجودة البصرية والاتساق والأهمية. في هذه الورقة، نستكشف أولا استخدام أجهزة تحليل الدائرة باستخدام بنية متكررة قائمة على المحولات لترميز المدخلات المهيكلة. ثانيا، نشجع المدخلات المنظمة مع معلومات المنطقية ودراسة تأثير هذه المعرفة الخارجية على جيل القصة البصرية. ثالثا، نحن أيضا دمج البنية المرئية عبر المربعات المحيطة والتسمية الكثيفة لتوفير ملاحظات حول الأحرف / الكائنات في الصور التي تم إنشاؤها داخل إعداد تعليمي مزدوج. نظهر أن نماذج التسمية الكثيفة غير الرفية التي تم تدريبها على جينوم المرئي يمكن أن تحسن الهيكل المكاني للصور من مجال مستهدف مختلف دون الحاجة إلى ضبط جيد. نحن ندرب طراز النموذج باستخدام فقدان داخل القصة داخل القصة (بين الكلمات والمناطق الفرعية للصور) وإظهار تحسينات كبيرة في الجودة البصرية. أخيرا، نحن نقدم تحليلا للمعلومات اللغوية والمكانية.
تعتمد أنظمة استرجاع المعلومات الكلاسيكية مثل BM25 على المباراة المعجمية الدقيقة ويمكنها تنفيذ البحث بكفاءة مع فهرس قائمة مقلوب.تتحول نماذج الأشعة تحت الحديثة الأخيرة نحو ناعم مطابقة شروط مستندات الاستعلام، لكنها تفقد كفاءة حساب أنظمة المطابقة الدقيقة .تقدم هذه الورقة لفائف، وهي عبارة عن بنية استرجاع مطابقة محددة في السياق، حيث تعتمد التهديف على تمثيلات محكومتي استفسارات الاستعلام المتداخلة.تخزن الهندسة المعمارية الجديدة تمثيلات الرمز المميز للسيتق في القوائم المقلوبة، مما يوفر كفاءة المباراة الدقيقة وقوة التمثيل لنماذج اللغة العميقة.تظهر النتائج التجريبية لدينا لفائف تفوق المستردات المعجمية الكلاسيكية واسترجاع LM العميق الحديثة مع الكمون مماثل أو أصغر.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا