في العديد من تطبيقات معالجة اللغة الطبيعية، يمكن تحديد نص التنبؤ بنفس أهمية التنبؤات نفسها.عند التنبؤ بالتشخيصات الطبية، على سبيل المثال، تحديد المحتوى التنبئي في الملاحظات السريرية ليس فقط يعزز الترجمة الشفوية فحسب، بل يسمح أيضا بعوامل خطر غير معروفة وتصويرية (I.E.E.E.E) التي سيتم تحديدها.نحن هنا إضفاء الطابع الرسمي على هذه المشكلة كاستخراج تنبؤي ومعالجته باستخدام آلية بسيطة بناء على الانتباه الخطي.تحافظ طريقتنا على التباين، مما يسمح بالاستدلال القابل للتطوير عبر نزول التدرج الاستوكاستكي.علاوة على ذلك، يتحلل النموذج تنبؤات في مبلغ من مساهمات النص المميز.الأهم من ذلك، نحن نحتاج إلى ملصقات المستندات فقط، وليس الأمور في الحقيقة الأرضية.تشير النتائج إلى أن طرازنا يحدد يمتد يمتد متماسكة من الناحية الدلوية وتعيين درجاتهم التي تتفق مع التصنيفات البشرية، مع الحفاظ على أداء التصنيف.
In many natural language processing applications, identifying predictive text can be as important as the predictions themselves. When predicting medical diagnoses, for example, identifying predictive content in clinical notes not only enhances interpretability, but also allows unknown, descriptive (i.e., text-based) risk factors to be identified. We here formalize this problem as predictive extraction and address it using a simple mechanism based on linear attention. Our method preserves differentiability, allowing scalable inference via stochastic gradient descent. Further, the model decomposes predictions into a sum of contributions of distinct text spans. Importantly, we require only document labels, not ground-truth spans. Results show that our model identifies semantically-cohesive spans and assigns them scores that agree with human ratings, while preserving classification performance.
المراجع المستخدمة
https://aclanthology.org/
يمكن استخراج المعلومات المهيكلة من المحادثات الطبية تقليل عبء الوثائق للأطباء ومساعدة المرضى الذين يتبعون مع خطة الرعاية الخاصة بهم.في هذه الورقة، نقدم مهمة جديدة لاستخراج المواعيد يمتد من المحادثات الطبية.نحن نؤيد هذه المهمة كمشكلة علامات تسلسل والت
أظهرت التقدم المحرز الأخير في نماذج اللغة المستندة إلى المحولات الاحترام نجاحا كبيرا في تعلم التمثيل السياقي للنص.ومع ذلك، نظرا لتعقيد الاهتمام من الدرجة الثانية، يمكن لمعظم نماذج المحولات مسبقا التعامل مع النص القصير نسبيا.لا يزال يمثل تحديا عندما ي
نماذج الموضوعات العصبية (NTMS) تطبيق الشبكات العصبية العميقة إلى نمذجة الموضوعات. على الرغم من نجاحها، تجاهل NTMS عموما جائبا مهمين: (1) فقط يتم استخدام معلومات عدد الكلمات على مستوى المستند للتدريب، في حين يتم تجاهل المزيد من المعلومات ذات المستوى ا
أصبح استخراج المعلومات من المستندات استخداما رائعا لمناطق معالجة اللغة الطبيعية الجديدة. معظم منهجيات استخراج الكيانات متغير في سياق مثل المنطقة الطبية، المنطقة المالية، كما تقتصر على اللغة المحددة. من الأفضل أن يكون لديك نهج عام واحد ينطبق على أي نو
استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغا