ترغب بنشر مسار تعليمي؟ اضغط هنا

spancepredict: استخراج وثيقة تنبؤية يمتد بالاهتمام العصبي

SpanPredict: Extraction of Predictive Document Spans with Neural Attention

218   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في العديد من تطبيقات معالجة اللغة الطبيعية، يمكن تحديد نص التنبؤ بنفس أهمية التنبؤات نفسها.عند التنبؤ بالتشخيصات الطبية، على سبيل المثال، تحديد المحتوى التنبئي في الملاحظات السريرية ليس فقط يعزز الترجمة الشفوية فحسب، بل يسمح أيضا بعوامل خطر غير معروفة وتصويرية (I.E.E.E.E) التي سيتم تحديدها.نحن هنا إضفاء الطابع الرسمي على هذه المشكلة كاستخراج تنبؤي ومعالجته باستخدام آلية بسيطة بناء على الانتباه الخطي.تحافظ طريقتنا على التباين، مما يسمح بالاستدلال القابل للتطوير عبر نزول التدرج الاستوكاستكي.علاوة على ذلك، يتحلل النموذج تنبؤات في مبلغ من مساهمات النص المميز.الأهم من ذلك، نحن نحتاج إلى ملصقات المستندات فقط، وليس الأمور في الحقيقة الأرضية.تشير النتائج إلى أن طرازنا يحدد يمتد يمتد متماسكة من الناحية الدلوية وتعيين درجاتهم التي تتفق مع التصنيفات البشرية، مع الحفاظ على أداء التصنيف.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يمكن استخراج المعلومات المهيكلة من المحادثات الطبية تقليل عبء الوثائق للأطباء ومساعدة المرضى الذين يتبعون مع خطة الرعاية الخاصة بهم.في هذه الورقة، نقدم مهمة جديدة لاستخراج المواعيد يمتد من المحادثات الطبية.نحن نؤيد هذه المهمة كمشكلة علامات تسلسل والت ركيز على استخراج يمتد لسبب الموعد والوقت.ومع ذلك، فإن التسجيل المحادثات الطبية باهظة الثمن، وتستغرق وقتا طويلا، ويتطلب من خبرات مجال كبيرة.وبالتالي، نقترح أن نستفيد مناهج الإشراف الضعيفة، وهي الإشراف غير المكتملة والإشراف غير الدقيق، ونهج إشراف هجين وتقييم كل من ELMO - ELMO وبرت خاصة بالمجال باستخدام نماذج علامات التسلسل.أفضل نموذج أداء هو متغير Bertiant الخاص بالمجال باستخدام الإشراف الهجين الضعيف والحصول على درجة F1 79.32.
أظهرت التقدم المحرز الأخير في نماذج اللغة المستندة إلى المحولات الاحترام نجاحا كبيرا في تعلم التمثيل السياقي للنص.ومع ذلك، نظرا لتعقيد الاهتمام من الدرجة الثانية، يمكن لمعظم نماذج المحولات مسبقا التعامل مع النص القصير نسبيا.لا يزال يمثل تحديا عندما ي تعلق الأمر بنمذة مستندات طويلة جدا.في هذا العمل، نقترح استخدام شبكة انتباه الرسوم البيانية أعلى نموذج المحولات مسبقا متوفرة لتعلم تضمين الوثائق.تتيح لنا شبكة انتباه الرسم البياني هذه الاستفادة من الهيكل الدلالي الرفيع المستوى للوثيقة.بالإضافة إلى ذلك، استنادا إلى نموذج وثيقة الرسم البياني لدينا، نقوم بتصميم استراتيجية تعليمية بسيطة بسيطة للتعبير عن نماذجنا بمقدار كبير من الكائنات الكبيرة.تجريبيا، نوضح فعالية نهجنا في تصنيف الوثائق ومهام استرجاع المستندات.
نماذج الموضوعات العصبية (NTMS) تطبيق الشبكات العصبية العميقة إلى نمذجة الموضوعات. على الرغم من نجاحها، تجاهل NTMS عموما جائبا مهمين: (1) فقط يتم استخدام معلومات عدد الكلمات على مستوى المستند للتدريب، في حين يتم تجاهل المزيد من المعلومات ذات المستوى ا لجميل على مستوى الجملة، و (2) المعرفة الدلالية الخارجية فيما يتعلق بالوثائق، الجمل والكلمات لم يتم استغلالها للتدريب. لمعالجة هذه المشكلات، نقترح نموذج NTM (VAE) AutoNCoder (VAE) بشكل مشترك إعادة بناء الجملة وكلمة الوثيقة التي تهمها مجموعات من المبيعات الموضعية في كيس الكلمات (القوس) و EMBEDDINGS الدلالي المدرب مسبقا. يتم تحويل المدينات المدربة مسبقا لأول مرة إلى مساحة موضة كامنة مشتركة لمواءمة دلالاتها مع تضمين القوس. يتميز نموذجنا أيضا باختلاف KL هرمي للاستفادة من تضمينات كل وثيقة لتوسيع نطاق جملهم، مما يدفع المزيد من الاهتمام للجمل ذات الصلة الدولى. أظهرت كل من التجارب الكمية والنوعية فعالية نموذجنا في 1) خفض أخطاء إعادة الإعمار على كل من المستويات الجملة والوثائق، و 2) اكتشاف موضوعات أكثر تماسكا من مجموعات بيانات العالم الحقيقي.
أصبح استخراج المعلومات من المستندات استخداما رائعا لمناطق معالجة اللغة الطبيعية الجديدة. معظم منهجيات استخراج الكيانات متغير في سياق مثل المنطقة الطبية، المنطقة المالية، كما تقتصر على اللغة المحددة. من الأفضل أن يكون لديك نهج عام واحد ينطبق على أي نو ع مستند لاستخراج معلومات الكيان بغض النظر عن اللغة والسياق والهيكل. أيضا، هناك مشكلة أخرى في هذا البحث تحليل هيكلي مع الحفاظ على ميزات التسلسل الهرمي والدلي والمثير. مشكلة أخرى تم تحديدها هي أنه عادة، فإنه يتطلب كوربا تدريب ضخما. لذلك، يركز هذا البحث على التخفيف من هذه الحواجز. تم تحديد العديد من النهج نحو بناء مستخرجات معلومات المستندات التي تركز على تخصصات مختلفة. تتضمن منطقة البحث هذه معالجة اللغة الطبيعية والتحليل الدلالي واستخراج المعلومات والنمذجة المفاهيمية. تقدم هذه الورقة مراجعة لآلية استخراج المعلومات لبناء إطار عام لاستخراج المستندات بهدف توفير قاعدة صلبة للبحث القادم.
استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغا ت غنية بالمظورة في صناعة وسائل الإعلام الإخبارية الأوروبية (الكرواتية، الإستونية، اللاتفية والروسية). أولا، نؤدي تقييم اثنين من أساليب المحولات العصبية الخاضعة للإشراف، والتكلمة العصبية القائمة على المحولات لتحديد الكلمات الرئيسية (TNT-KID) وتمثيل التشفير ثنائي الاتجاه من المحولات (بيرت) مع وجود ذاكرة عشوائية قصيرة الأجل طويلة الأجل الطويلة الأجل (BILSTM) رأس التصنيف CRF)، ومقارنتها بموجب تردد خط الأساس - تعتمد على تردد المستندات (TF-IDF) مقرها. بعد ذلك، نظهر أنه من خلال الجمع بين الكلمات الرئيسية التي تم استرجها من قبل كل من الأساليب القائم على المحولات العصبية وتوسيع المجموعة النهائية من الكلمات الرئيسية ذات التقنية القائمة على TF-IDF غير المدعومة، يمكننا تحسين استدعاء النظام بشكل كبير، مما يجعلها مناسبة للاستخدام ك نظام التوصية في بيئة مجلس الإعلام.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا