ترغب بنشر مسار تعليمي؟ اضغط هنا

في السنوات الأخيرة، تم تطبيق نماذج قليلة بالرصاص بنجاح في مجموعة متنوعة من مهام NLP.هان وآخرون.(2018) أدخل إطارا متعدد الطلقات التعلم لتصنيف العلاقة، ومنذ ذلك الحين، تجاوزت عدة نماذج الأداء البشري في هذه المهمة، مما يؤدي إلى الانطباع بأن التصنيف القل يل من الطلقات يتم حلها.في هذه الورقة، نلقي نظرة أعمق على فعالية نماذج التصنيف القليلة القليلة في إعداد استخراج العلاقات الأكثر شيوعا، وإظهار أن مقاييس التقييم القليلة النموذجية تحجب تقلب واسع في الأداء عبر العلاقات.على وجه الخصوص، نجد أن نماذج تصنيف العلاقات بين الفنون القليلة تعتمد بشكل مفرط على معلومات نوع الكيان، واقتراح تعديلات على روتين التدريب لتشجيع النماذج على التمييز بشكل أفضل بين العلاقات التي تنطوي على أنواع كيانات مماثلة.
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا العمل، نأخذ هذا الاتجاه البحثي إلى المعاكس ودراسة تكبير بيانات المجال عبر المجال لمهمة NER.نحن نبحث في إمكانية الاستفادة من البيانات من مجالات الموارد العالية من خلال إسقاطها في مجالات الموارد المنخفضة.على وجه التحديد، نقترح بنية عصبية رواية لتحويل تمثيل البيانات من الموارد العالية إلى مجال موارد منخفضة من خلال تعلم الأنماط (مثل الأناقة والضوضاء والاختصارات، وما إلى ذلك) في النص الذي يميزها ومساحة ميزة مشتركةحيث يتماشى كلا المجالين.نقوم بتجربة مجموعات بيانات متنوعة وإظهار أن تحويل البيانات إلى تمثيل مجال الموارد المنخفض يحقق تحسينات كبيرة على استخدام البيانات فقط من مجالات الموارد العالية.
في السنوات الأخيرة، أثبتت نماذج اللغة المدربة مسبقا (PLM) مثل بيرت فعالة للغاية في مهام NLP المتنوعة مثل استخراج المعلومات وتحليل المعنويات والرد على الأسئلة.تدربت مع نص المجال العام الضخم، هذه النماذج اللغوية المدربة مسبقا تلتقط معلومات النحوية والد لية والجلطة الغنية في النص.ومع ذلك، نظرا للاختلافات بين نص مجال عام ومحدد (E.G.، Wikipedia مقابل ملاحظات عيادة)، قد لا تكون هذه النماذج مثالية للمهام الخاصة بالمجال (على سبيل المثال، استخراج العلاقات السريرية).علاوة على ذلك، قد يتطلب الأمر معرفة طبية إضافية لفهم النص السريري بشكل صحيح.لحل هذه القضايا، في هذا البحث، نقوم بإجراء فحص شامل للتقنيات المختلفة لإضافة المعرفة الطبية إلى نموذج برت مدرب مسبقا لاستخراج العلاقات السريرية.تتفوق أفضل طرازنا على مجموعة بيانات استخراج الحالة الإكلينيكية من أحدث طراز I2B2 / VA 2010.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا