ترغب بنشر مسار تعليمي؟ اضغط هنا

ما بعد النص: دمج البيانات الوصفية والملصقات لتصنيف المستندات متعددة الملصقات باستخدام الرسوم البيانية غير المتجانسة

Beyond Text: Incorporating Metadata and Label Structure for Multi-Label Document Classification using Heterogeneous Graphs

181   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم جذب تصنيف المستندات متعددة الملصقات، وربط مثيل مستندات واحدة بمجموعة من الملصقات ذات الصلة، المزيد والمزيد من اهتمام البحوث. استكشاف الأساليب الحالية دمج المعلومات وراء النص، مثل بيانات تعريف الوثيقة أو هيكل الملصقات. ومع ذلك، فإن هذه الأساليب إما ببساطة الاستفادة من المعلومات الدلالية من البيانات الوصفية أو توظيف التسلسل الهرمي لملصق الوالدين والطفل المحدد مسبقا، وتجاهل الهياكل الرسومية غير المتجانسة للبيانات الوصفية والملصقات، والتي نعتقد أنها حاسمة لتصنيف مستندات دقيقة متعددة الملصقات. لذلك، في هذه الورقة، نقترح نهجا جديدا في الشبكة العصبية لتصنيف المستندات متعددة الملصقات، حيث يتم بناء الرسوم البيانية غير المتجانسة والتعلم باستخدام محولات الرسم البياني غير المتجانس. أحدهما هو الرسم البياني غير المتجانس في البيانات الأولية، والتي نماذج أنواع مختلفة من البيانات الوصفية وعلاقاتها الطوبولوجية. الآخر هو الرسم البياني الملصق غير المتجانس، الذي تم إنشاؤه بناء على كل من التسلسل الهرمي للملصقات والتمثيل الإحصائي. النتائج التجريبية على مجموعة من مجموعات البيانات القياسية تظهر النهج المقترح تفوق العديد من خطوط الأساس الحديثة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يمكن أن تكون مشاكل تصنيف المستندات متعددة الملصقات (MLDC) تحديا، خاصة بالنسبة للمستندات الطويلة ذات مجموعة علامات كبيرة وتوزيع ذيل طويل على الملصقات. في هذه الورقة، نقدم شبكة اهتمام نفعية فعالة لمشكلة MLDC مع التركيز على تنبؤ الكود الطبي من الوثائق ا لسريرية. ابتكاراتنا هي ثلاثة أضعاف: (1) نستخدم تشفير عميق يستند إلى الارتفاع مع شبكات الضغط والإثارة والشبكات المتبقية لتجميع المعلومات عبر الوثيقة وتعلم تمثيلات وثيقة ذات مغزى تغطي نطاقات مختلفة من النصوص؛ (2) نستكشف الانتباه متعدد الطبقات ومجموعة إيلاء الاهتمام لاستخراج الميزات الأكثر تفاعيمية من هذه التمثيلات متعددة النطاق؛ (3) نجمع بين خسارة انتروبيا الصليب الثنائية وفقدان البؤري لتحسين الأداء للعلامات النادرة. نحن نركز دراسة تقييمنا على MIMIC-III، مجموعة بيانات واستخدامها على نطاق واسع في المجال الطبي. تتفوق نماذجنا على العمل السابق على الترميز الطبي وتحقيق نتائج جديدة من الفنون الجديدة على مقاييس متعددة. كما نوضح أيضا الطبيعة المستقلة للغة لنهجنا من خلال تطبيقها على مجموعة بيانات غير الإنجليزية. يتفوق النموذج الخاص بنا على أفضل نموذج مسبق ونموذج محول متعدد اللغات من هامش جوهري.
أصبحت تسليلات التسلسل الهرمي لاستغلال التسمية نهجا واعدا لمعالجة مشكلة تصنيف النص متعدد الملصقات الصفرية (ZS-MTC). تهدف الأساليب التقليدية إلى تعلم نموذج مطابق بين النص والملصقات، باستخدام تشفير رسم بياني لإدراج التسلسلات الهرمية التسمية للحصول على ت مثيلات تسمية فعالة (Rios and Kavuluru، 2018). في الآونة الأخيرة، تم استخدام نماذج مسبقا مثل Bert (Devlin et al.، 2018) لتحويل مهام التصنيف إلى مهمة استقامة نصية (يين وآخرون، 2019). هذا النهج مناسب بشكل طبيعي لمهمة ZS-MTC. ومع ذلك، فإن النماذج المحددة المسبقة هي غير مقصودة في العمل الحالي لأنها لا تولد تمثيلات ناقلات فردية للنصوص أو الملصقات، مما يجعلها بلا معنى الجمع بين أساليب ترميز الرسم البياني التقليدي. في هذه الورقة، نستكشف لتحسين النماذج المحددة مع التسلسلات الهرمية التسمية في مهمة ZS-MTC. نقترح نهج تسلسل التسلسل الهرمي العلوي (RLHR) لتشجيع الترابط بين الملصقات في التسلسلات الهرمية أثناء التدريب. وفي الوقت نفسه، للتغلب على ضعف التوقعات المسطحة، نقوم بتصميم خوارزمية Rollback التي يمكنها إزالة الأخطاء المنطقية من التنبؤات أثناء الاستدلال. تظهر النتائج التجريبية على ثلاث مجموعات بيانات حقيقية على أن نهجنا يحقق أداء أفضل وتتفوق على الأساليب السابقة غير مسبوقة في مهمة ZS-MTC.
يتعامل تصنيف النص المتعدد التسميات الهرمية (HMTC) مع المهمة الصعبة التي يمكن فيها تعيين مثيل للفئات المهيكية المتعددة في نفس الوقت. غالبية الدراسات السابقة إما أن تركز على تقليل مهمة HMTC إلى مشكلة مسطحة متعددة العلامات تتجاهل علاقات الفئات الرأسية أ و استغلال التبعيات عبر مستويات هرمية مختلفة دون النظر في الارتباط الأفقي بين الفئات في نفس المستوى، والتي تؤدي حتما إلى المعلومات الأساسية خسارة. في هذه الورقة، نقترح إطار رواية HMTC يرى الارتباطات الفئة الرأسية والأفقية. على وجه التحديد، نقوم أولا بتصميم شبكة عصبية متقطعة متوترة فضفاضة كمستغل في التمثيل للحصول على تمثيلات للكلمات والوثائق، والأهم من ذلك، والأهم من ذلك، والتعويضات الحكيمة للمستوى بالنسبة للفئات، والتي لا تعتبر في الأعمال السابقة. بعد ذلك، يتم اعتماد تمثيلات الفئة المستفادة لالتقاط التبعيات الرأسي بين مستويات التسلسل الهرمي للفئة ونموذج الارتباط الأفقي. أخيرا، استنادا إلى Admeddings و Emgeddings، نقوم بتصميم خوارزمية هجينة للتنبؤ بفئات الهيكل الهرمي بأكمله. تجارب واسعة أجريت على مجموعات بيانات HMTC العالمية الحقيقية صحة فعالية الإطار المقترح بدعوات كبيرة على خط الأساس.
نقدم متعدد اليوراء، مجموعة بيانات جديدة متعددة اللغات لتصنيف الموضوع للوثائق القانونية. تضم DataSet قوانين الاتحاد الأوروبي 65 ألف (EU)، والتي ترجمت رسميا في 23 لغة، مشروحا بالملصقات المتعددة من تصنيف Eurovoc. نسلط الضوء على تأثير المنفأة الزمنية الا نجراف وأهمية التسلسل الزمني، بدلا من الانقسامات العشوائية. نستخدم DataSet كاختبار لنقل صفرية عبر اللغات، حيث استغلنا المستندات التدريبية المشروح بلغة واحدة (مصدر) لتصنيف المستندات بلغة أخرى (الهدف). نجد أن ضبط النموذج المحدد المتعدد اللغتين (XLM-Roberta، MT5) في لغة مصدر واحدة يؤدي إلى نسيان كارثي من المعرفة متعددة اللغات، وبالتالي، فإن تحويل صفر ضعيف إلى لغات أخرى. استراتيجيات التكيف، وهي استراتيجيات دقيقة، محولات، معترفيت، LNFIT، اقترحت في الأصل تسريع الضبط الجميل للمهام النهائية الجديدة، والمساعدة في الاحتفاظ بالمعرفة متعددة اللغات من الاحتجاج، وتحسين نقل اللغات الصفر قليلا، ولكن تأثيرها يعتمد أيضا على ذلك على النموذج المحدد مسبقا يستخدم وحجم مجموعة التسمية.
تقدم هذه الورقة نهجا فعالا معززا في الرسم البياني لتلخيص متعدد الوثائق (MDS) مع نموذج محول ترميز فك التشفير. يعتمد هذا النموذج على التطورات الحديثة في التدريب المسبق على كل من التشفير والكشف عن البيانات النصية الكبيرة للغاية (لويس وآخرون، 2019)، ويتض من آلية ترميز فعالة (Beltagy et al.، 2020) التي تتجنب نمو الذاكرة التربيعية نموذجي للمحولات التقليدية. نظهر أن هذا المجموعة القوية ليس فقط المقاييس لوثائق المدخلات الكبيرة التي تم العثور عليها عادة عند تلخيص مجموعات إخبارية؛ كما تمكننا من معالجة مدخلات إضافية في شكل تمثيلات رسم بياني إضافي، والتي نستمدها من مجموعات متعددة الوثائق. نقدم آلية لإدراج معلومات الرسم البياني هذه في نموذج ترميز التشفير الذي تم تدريبه مسبقا على النص فقط. يؤدي نهجنا إلى تحسينات كبيرة في مجموعة بيانات الأخبار المتعددة، بشكل عام يؤدي إلى تحسن نقاط Rouge في المتوسط ​​1.8 على العمل السابق (لي وآخرون، 2020). نعرض أيضا تحسينات في إعداد نقل فقط على DUC-2004 DataSet. يؤدي ترميزات الرسم البياني إلى ملخصات أكثر إفراط. يوضح التقييم البشري أنهم أكثر إفادة أكثر إفادة ومستمرة في الواقع مع وثائق المدخلات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا