ترغب بنشر مسار تعليمي؟ اضغط هنا

استخراج المعلومات المنتهي فعالة من حيث التكلفة لصور المستندات شبه المهيكلة

Cost-effective End-to-end Information Extraction for Semi-structured Document Images

407   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

غالبا ما ينطوي نظام استخراج المعلومات العالمي الحقيقي (IE) لصور وثيقة شبه منظمة أن خط أنابيب طويل من وحدات متعددة، مما يزيد تعقيده بشكل كبير من تكلفة التطوير والصيانة.يمكن للمرء بدلا من ذلك النظر في نموذج نهاية إلى نهاية يدري مباشرة المدخلات إلى الإخراج المستهدف وتبسيط العملية بأكملها.ومع ذلك، يعرف نهج هذا الجيل أن يؤدي إلى أداء غير مستقر إذا لم يتم تصميمه بعناية.هنا نقدم جهدنا الأخير على الانتقال من نظام IE الحالي الذي يعتمد على خط الأنابيب إلى نظام نهاية إلى نهاية يركز على التحديات العملية المرتبطة باستبدال ونشر النظام في الإنتاج الحقيقي والنطاق على نطاق واسع.من خلال صياغة المستند بعناية أي مهمة توليد التسلسل، نوضح أن نظام IE نهاية واحدة إلى النهاية يمكن بناؤه ولا يزال يحقق الأداء المختص.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الدراسة، نوضح جدوى نشر نماذج نمط بيرت إلى AWS Lambda في بيئة الإنتاج.نظرا لأن النماذج المدربة مسبقا متوفرة بحرية كبيرة جدا بحيث لا يتم نشرها في هذه البيئة، فإننا نستخدم تقارير المعرفة وضبط النماذج على مجموعات البيانات الخاصة بمهام عمليتين في ا لعالم الحقيقي: تحليل المعنويات والتوجيهات النصية الدلالية.نتيجة لذلك، نحصل على نماذج تم ضبطها مجال معين ونشرها في بيئة Serverless.يوضح تحليل الأداء اللاحق أن هذا الحل لا يبلغ فقط عن مستويات الكمون مقبول لاستخدام الإنتاج ولكنه أيضا بديل فعال من حيث التكلفة لنماذج صغيرة إلى متوسطة الحجم لنماذج بيرت، كل ذلك دون أي مرفقات تحتية للبنية التحتية.
غالبا ما يتطلب فهم الروايات بالكامل من الأحداث في سياق المستندات بأكملها ونمذجة علاقات الحدث.ومع ذلك، فإن استخراج الأحداث على مستوى المستند هو مهمة صعبة لأنها تتطلب استخراج الحدث والكيان الأساسية، والتقاط الحجج التي تمتد عبر جمل مختلفة.تعمل الأعمال ا لموجودة على استخراج الأحداث عادة على استخراج الأحداث من جمل واحدة، والتي تفشل في التقاط العلاقات بين الحدث تذكر على نطاق المستند، وكذلك حجج الحدث التي تظهر في جملة مختلفة عن مشغل الحدث.في هذه الورقة، نقترح نماذج طراز نهاية إلى نهاية شبكات القيمة العميقة (DVN)، خوارزمية التنبؤ منظم، لالتقاط التبعيات عبر الأحداث بكفاءة لاستخراج الأحداث على مستوى المستند.تظهر النتائج التجريبية أن نهجنا يحقق أداء قابلا للمقارنة مع النماذج القائمة على CRF على ACE05، بينما تتمتع بكفاءة حسابية أعلى بكثير.
تفترض أن معظم الدراسات السابقة حول حالة المعلومات (IS) تصنيف وتجسير التعرف anaphora أن ذكر الذهب أو معلومات شجرة النحوية يتم إعطاء (Hou et al.، 2013؛ Roesiger et al.، 2018؛ هو، 2020؛ يو ويوسيو، 2020) وبعد في هذه الورقة، نقترح نهج عصبي نهاية إلى نهج ل تصنيف حالة المعلومات. يتكون نهجنا من مكون استخراج الأوراق ومكون مهمة لحالة المعلومات. خلال وقت الاستدلال، يأخذ نظامنا نصا الخام حيث أن المدخلات ويولد يشرح مع وضع المعلومات الخاصة بهم. على Corpus Isnotes (Markert et al.، 2012)، نوضح أن مكون تعيين حالة معلوماتنا يحقق نتائج جديدة من الفنادق الجديدة على الحبيبات الجميلة التصنيف بناء على طلب الذهب. علاوة على ذلك، يؤدي نظامنا أفضل بكثير من خطوط الأساس الأخرى لكلا من الاستخراج والحبوب الدقيق التصنيف في الإعداد النهائي. أخيرا، نطبق نظامنا على باشي (Roesiger، 2018) و SCICORP (Roesiger، 2016) للتعرف على الحسارة المرجعية. نجد أن نظامنا المنتهي بنا مدروسا على ISNOT يحقق نتائج تنافسية بشأن تجسيد التعرف على الحساب مقارنة بالنظام السابق الذي يعتمد على معلومات النحوية وتدرب على مجموعات البيانات داخل المجال (YU و Poesio ، 2020).
تستخرف تستخرف توائم النص من النص الخام مهمة حاسمة في استخراج المعلومات، مما يتيح تطبيقات متعددة مثل ملء قواعد المعرفة أو التحقق من صحة المعرفة ومهام المصب الأخرى. ومع ذلك، فإنه عادة ما ينطوي عادة على خطوط أنابيب متعددة الخطوات التي تنتشر أخطاء أو تقت صر على عدد صغير من أنواع العلاقات. للتغلب على هذه القضايا، نقترح استخدام نماذج SEQ2SEQ AutoRegressive. لقد سبق أن ثبت أن هذه النماذج قد تؤدي بشكل جيد ليس فقط في توليد اللغة، ولكن أيضا في مهام NLU مثل ربط الكيان، بفضل تأطيرها كامرأة SEQ2SEQ. في هذه الورقة، نظهر كيف يمكن تبسيط استخراج العلاقات من خلال التعبير عن توابع توائم كسلسلة من النص، ونحن نقدم المتمردين، نموذج SEQ2SEQ يعتمد على BART يؤدي استخراج العلاقات الطرفية إلى نهاية لأكثر من 200 نوع من العلاقات المختلفة. نظهر مرونة نموذجنا من خلال ضبطه بشكل جيد على مجموعة من معايير استخراج العلاقات وعلاقة التصنيف، مع أنها تحقق أداء حديثة في معظمها.
إن دمج قواعد المعرفة (KB) في أنظمة الحوار الموجهة نحو المهام الواحد أمرا صعبا، لأنها تتطلب تمثيل كيان KB بشكل صحيح، وهو مرتبط بسياق KB وحالات الحوار. تمثل الأعمال الحالية الكيان مع إدراك جزء من سياق KB فقط، والذي يمكن أن يؤدي إلى تمثيل أقل فعالية بسب ب فقدان المعلومات، ويلفح سلبا من أجل تناسبي KB وتوليد الاستجابة. لمعالجة هذه المشكلة، نستكشف من السياق بالكامل عن تمثيل الكيان من خلال إدراك جميع الكيانات والحوار ذات الصلة ديناميكيا. لتحقيق ذلك، نقترح، نقترح إطار محول محول في الذاكرة المعززة بالذاكرة (المذنب)، والتي تعامل KB كسلسلة وتزايد قناع ذاكرة جديدة لفرض الكيان على التركيز فقط على كياناتها ذات الصلة وحوار التاريخ، مع تجنب الهاء من الكيانات غير ذات الصلة. من خلال تجارب واسعة، نوضح أن إطار المنزول لدينا يمكن أن يحقق أداء فائقا على حالة الآداب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا