يتم جذب تصنيف المستندات متعددة الملصقات، وربط مثيل مستندات واحدة بمجموعة من الملصقات ذات الصلة، المزيد والمزيد من اهتمام البحوث. استكشاف الأساليب الحالية دمج المعلومات وراء النص، مثل بيانات تعريف الوثيقة أو هيكل الملصقات. ومع ذلك، فإن هذه الأساليب إما ببساطة الاستفادة من المعلومات الدلالية من البيانات الوصفية أو توظيف التسلسل الهرمي لملصق الوالدين والطفل المحدد مسبقا، وتجاهل الهياكل الرسومية غير المتجانسة للبيانات الوصفية والملصقات، والتي نعتقد أنها حاسمة لتصنيف مستندات دقيقة متعددة الملصقات. لذلك، في هذه الورقة، نقترح نهجا جديدا في الشبكة العصبية لتصنيف المستندات متعددة الملصقات، حيث يتم بناء الرسوم البيانية غير المتجانسة والتعلم باستخدام محولات الرسم البياني غير المتجانس. أحدهما هو الرسم البياني غير المتجانس في البيانات الأولية، والتي نماذج أنواع مختلفة من البيانات الوصفية وعلاقاتها الطوبولوجية. الآخر هو الرسم البياني الملصق غير المتجانس، الذي تم إنشاؤه بناء على كل من التسلسل الهرمي للملصقات والتمثيل الإحصائي. النتائج التجريبية على مجموعة من مجموعات البيانات القياسية تظهر النهج المقترح تفوق العديد من خطوط الأساس الحديثة.
Multi-label document classification, associating one document instance with a set of relevant labels, is attracting more and more research attention. Existing methods explore the incorporation of information beyond text, such as document metadata or label structure. These approaches however either simply utilize the semantic information of metadata or employ the predefined parent-child label hierarchy, ignoring the heterogeneous graphical structures of metadata and labels, which we believe are crucial for accurate multi-label document classification. Therefore, in this paper, we propose a novel neural network based approach for multi-label document classification, in which two heterogeneous graphs are constructed and learned using heterogeneous graph transformers. One is metadata heterogeneous graph, which models various types of metadata and their topological relations. The other is label heterogeneous graph, which is constructed based on both the labels' hierarchy and their statistical dependencies. Experimental results on two benchmark datasets show the proposed approach outperforms several state-of-the-art baselines.
المراجع المستخدمة
https://aclanthology.org/
يمكن أن تكون مشاكل تصنيف المستندات متعددة الملصقات (MLDC) تحديا، خاصة بالنسبة للمستندات الطويلة ذات مجموعة علامات كبيرة وتوزيع ذيل طويل على الملصقات. في هذه الورقة، نقدم شبكة اهتمام نفعية فعالة لمشكلة MLDC مع التركيز على تنبؤ الكود الطبي من الوثائق ا
أصبحت تسليلات التسلسل الهرمي لاستغلال التسمية نهجا واعدا لمعالجة مشكلة تصنيف النص متعدد الملصقات الصفرية (ZS-MTC). تهدف الأساليب التقليدية إلى تعلم نموذج مطابق بين النص والملصقات، باستخدام تشفير رسم بياني لإدراج التسلسلات الهرمية التسمية للحصول على ت
يتعامل تصنيف النص المتعدد التسميات الهرمية (HMTC) مع المهمة الصعبة التي يمكن فيها تعيين مثيل للفئات المهيكية المتعددة في نفس الوقت. غالبية الدراسات السابقة إما أن تركز على تقليل مهمة HMTC إلى مشكلة مسطحة متعددة العلامات تتجاهل علاقات الفئات الرأسية أ
نقدم متعدد اليوراء، مجموعة بيانات جديدة متعددة اللغات لتصنيف الموضوع للوثائق القانونية. تضم DataSet قوانين الاتحاد الأوروبي 65 ألف (EU)، والتي ترجمت رسميا في 23 لغة، مشروحا بالملصقات المتعددة من تصنيف Eurovoc. نسلط الضوء على تأثير المنفأة الزمنية الا
تقدم هذه الورقة نهجا فعالا معززا في الرسم البياني لتلخيص متعدد الوثائق (MDS) مع نموذج محول ترميز فك التشفير. يعتمد هذا النموذج على التطورات الحديثة في التدريب المسبق على كل من التشفير والكشف عن البيانات النصية الكبيرة للغاية (لويس وآخرون، 2019)، ويتض