ترغب بنشر مسار تعليمي؟ اضغط هنا

يمكن أن تكون مشاكل تصنيف المستندات متعددة الملصقات (MLDC) تحديا، خاصة بالنسبة للمستندات الطويلة ذات مجموعة علامات كبيرة وتوزيع ذيل طويل على الملصقات. في هذه الورقة، نقدم شبكة اهتمام نفعية فعالة لمشكلة MLDC مع التركيز على تنبؤ الكود الطبي من الوثائق ا لسريرية. ابتكاراتنا هي ثلاثة أضعاف: (1) نستخدم تشفير عميق يستند إلى الارتفاع مع شبكات الضغط والإثارة والشبكات المتبقية لتجميع المعلومات عبر الوثيقة وتعلم تمثيلات وثيقة ذات مغزى تغطي نطاقات مختلفة من النصوص؛ (2) نستكشف الانتباه متعدد الطبقات ومجموعة إيلاء الاهتمام لاستخراج الميزات الأكثر تفاعيمية من هذه التمثيلات متعددة النطاق؛ (3) نجمع بين خسارة انتروبيا الصليب الثنائية وفقدان البؤري لتحسين الأداء للعلامات النادرة. نحن نركز دراسة تقييمنا على MIMIC-III، مجموعة بيانات واستخدامها على نطاق واسع في المجال الطبي. تتفوق نماذجنا على العمل السابق على الترميز الطبي وتحقيق نتائج جديدة من الفنون الجديدة على مقاييس متعددة. كما نوضح أيضا الطبيعة المستقلة للغة لنهجنا من خلال تطبيقها على مجموعة بيانات غير الإنجليزية. يتفوق النموذج الخاص بنا على أفضل نموذج مسبق ونموذج محول متعدد اللغات من هامش جوهري.
يتم جذب تصنيف المستندات متعددة الملصقات، وربط مثيل مستندات واحدة بمجموعة من الملصقات ذات الصلة، المزيد والمزيد من اهتمام البحوث. استكشاف الأساليب الحالية دمج المعلومات وراء النص، مثل بيانات تعريف الوثيقة أو هيكل الملصقات. ومع ذلك، فإن هذه الأساليب إم ا ببساطة الاستفادة من المعلومات الدلالية من البيانات الوصفية أو توظيف التسلسل الهرمي لملصق الوالدين والطفل المحدد مسبقا، وتجاهل الهياكل الرسومية غير المتجانسة للبيانات الوصفية والملصقات، والتي نعتقد أنها حاسمة لتصنيف مستندات دقيقة متعددة الملصقات. لذلك، في هذه الورقة، نقترح نهجا جديدا في الشبكة العصبية لتصنيف المستندات متعددة الملصقات، حيث يتم بناء الرسوم البيانية غير المتجانسة والتعلم باستخدام محولات الرسم البياني غير المتجانس. أحدهما هو الرسم البياني غير المتجانس في البيانات الأولية، والتي نماذج أنواع مختلفة من البيانات الوصفية وعلاقاتها الطوبولوجية. الآخر هو الرسم البياني الملصق غير المتجانس، الذي تم إنشاؤه بناء على كل من التسلسل الهرمي للملصقات والتمثيل الإحصائي. النتائج التجريبية على مجموعة من مجموعات البيانات القياسية تظهر النهج المقترح تفوق العديد من خطوط الأساس الحديثة.
يستخدم استخدام اللغة بين المجالات وحتى داخل المجال، يتغير استخدام اللغة بمرور الوقت. بالنسبة لنماذج اللغة المدربة مسبقا مثل Bert، فقد ثبت أن تكييف المجال من خلال استمرار التدريب المستمر لتحسين الأداء في مهام Towstream داخل المجال. في هذه المقالة، يمك ننا التحقيق فيما إذا كان التكيف الزمني يمكن أن يجلب فوائد إضافية. لهذا الغرض، نقدم كذبة من وسائل التواصل الاجتماعي تعليقات عينات أكثر من ثلاث سنوات. أنه يحتوي على بيانات غير مسؤولة عن التكيف والتقييم على مهمة نمذجة لغة ملثم في المنبع بالإضافة إلى البيانات المسمى للضبط الدقيق والتقييم في مهمة تصنيف المستندات المصب. نجد أن هذه المهام في كل من المهام: التكيف الزمني يحسن أداء مهام المهام المصب والصقل الزمني الصخري. تؤدي النماذج الزمنية الخاصة عموما بشكل عام في الماضي عن مجموعات الاختبار المستقبلية، مما يطابق الأدلة على الاستخدام الدائر للكلمات الموضعية. ومع ذلك، لا يحسن تكييف Bert to Time & Domain الأداء على المهمة المصب على التكيف فقط إلى المجال. يوضح تحليل المستوى الرمز المميز أن التكيف الزمني يلتقط التغييرات التي يحركها الأحداث في استخدام اللغة في مهمة المصب، ولكن ليس هذه التغييرات ذات الصلة بالفعل بأداء المهام. بناء على النتائج التي توصلنا إليها، نناقش متى قد يكون التكيف الزمني أكثر فعالية.
من المعروف أن طريقة المزيج (تشانغ وآخرون، 2017)، واحدة من أساليب تكبير البيانات، من المعروف أنها سهلة التنفيذ والفعالة للغاية. على الرغم من أن طريقة المزيج مخصصة لتحديد الصور، إلا أنه يمكن تطبيقه أيضا على معالجة اللغة الطبيعية. في هذه الورقة، نحاول ت طبيق طريقة المزيج إلى مهمة تصنيف المستندات باستخدام تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) (ديفلين وآخرون، 2018). نظرا لأن Bert يسمح بإدخال الإصدارين من الجملة، فإننا نسقط تسلسل الكلمات من مستندتين مع ملصقتين مختلفتين واستخدمت الإخراج متعدد الفصول كبيانات خاضعة للإشراف مع ناقل ساخن واحد. في تجربة باستخدام Corpus أخبار Livedoor، وهي اليابانية، قارننا دقة تصنيف المستندات باستخدام طريقتين لاختيار المستندات المراد متسلسلا بتصنيف المستندات العادي. نتيجة لذلك، وجدنا أن الطريقة المقترحة أفضل من التصنيف العادي عند خلط المستندات التي تحتوي على نقص التسميات بشكل تفضيلي. يشير هذا إلى أن كيفية اختيار مستندات المزيج لها تأثير كبير على النتائج.
يوروفوك هو عبارات متعددة اللغات تم بناؤها لتنظيم الوثائقي التشريعي لمؤسسات الاتحاد الأوروبي.يحتوي على الآلاف من الفئات في مستويات مختلفة من الخصوصية وتستهدف واصفاتها من قبل النصوص القانونية في ثلاثين لغة تقريبا.في هذا العمل، نقترح إطارا موحدا لتصنيف EUROVOC في 22 لغة من خلال ضبط نماذج اللغة المحولات الحديثة التي تعتمد على المحولات.نحن ندرس على نطاق واسع أداء نماذجنا المدربة وإظهار أنها تعمل بشكل كبير على تحسين النتائج التي تم الحصول عليها بواسطة أداة مماثلة - جيم - على نفس مجموعة البيانات.تم فتح الرمز والنماذج التي تم ضبطها بشكل جيد مصادر، بالإضافة إلى واجهة برنامجية تخفف عملية تحميل أوزان طراز مدرب وتصنيف مستند جديد.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا