ترغب بنشر مسار تعليمي؟ اضغط هنا

نظام استخراج كيان مقياس الويب

A Web Scale Entity Extraction System

387   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

فهم المعنى الدلالي للمحتوى على الويب من خلال عدسة الكيانات والمفاهيم له العديد من المزايا العملية.ومع ذلك، عند بناء أنظمة استخراج الكيانات على نطاق واسع، يواجه الممارسون تحديات فريدة تنطوي على إيجاد أفضل الطرق للاستفادة من نطاق البيانات ومجموعة متنوعة من البيانات المتاحة على منصات الإنترنت.نقدم التعلم من جهودنا في بناء نظام استخراج الكيانات لأنواع متعددة الوثائق على نطاق واسع باستخدام محولات متعددة الوسائط.إننا نوضح تجريبيا فعالية التعلم متعدد اللغات ومتعدد المهام والنوع عبر المستندات.نناقش أيضا مخططات جمع الملصقات التي تساعد على تقليل مقدار الضوضاء في البيانات التي تم جمعها.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحاول في هذا البحث أن نتناول أنظمة استخراج المعلومات المعتمدة على الأنتولوجي من خلال دراسة مرجعية مفصلة و شاملة، و نميز بينها و بين أنظمة أخرى مثل أنظمة استرجاع المعلومات و التنقيب في البيانات و كما نحاول أن نحدد البنية العامة لمثل هذه الأنظمة التي ت شكل جزء من أنظمة أكبر مهمتها الإجابة على استفسارات المستخدمين بالاعتماد على المعلومات المستخرجة. بعد ذلك نستعرض الأنواع المختلفة لهذه الانظمة و التقنيات المستخدمة فيها و من ثم نحاول حصر التحديات الحالية و المستقبلية و ما يترتب عليها من مشاكل بحث. و في النهاية نناقش تفاصيل التحقيقات المختلفة لهذه الانظمة من خلال شرح منصتي عمل للوسم الدلالي و هما (OpenCalais) و (Gate) و نحاول المقارنة بين أنظمة الاستخراج الخاصة بهما و مناقشة النتائج.
جزء من بحث مقدم لنيل درجة الماجستير في علوم الويب لعام 2017 ، يتضمن التعريف بالذكاء التسويقي في دراسة نظرية موسعة ، وطريقة بناء نظام معتمد على الانترنت كمصدر للبيانات و منهجية المعالجة ونتائج تطبيقية .
إن استخراج العلاقات على مستوى المستند هو مهمة صعبة، تتطلب التفكير في جمل متعددة للتنبؤ بمجموعة من العلاقات في وثيقة.في هذه الورقة، نقترح إطار رواية E2GRE (الكيان والأدلة استخراج التعادل الموجود) التي تستخرج العلاقات بشكل مشترك وعمليات الأدلة الأساسية باستخدام نموذج اللغة المسبق الكبير (LM) كمشفر مدخلات.أولا، نقترح توجيه آلية انتباه LM مسبقا للتركيز على السياق ذي الصلة باستخدام احتمالات الاهتمام كميزات إضافية لتنبؤ الأدلة.علاوة على ذلك، بدلا من إطعام المستند بأكمله إلى LMS محداس للحصول على تمثيل كيان، نسلسل نص المستندات مع كيانات رئيسية للمساعدة في تركيز LMS على أجزاء من الوثيقة التي ترتبط أكثر بكيان الرأس.تتعلم E2GRE لدينا بشكل مشترك استخراج العلاقة والتنبؤ بالأدلة بفعالية، مما يدل على مكاسب كبيرة على كل من هذه المهام، والتي نجدها مرتبطة بشدة.
نبحث في هذه الدراسة اقتراح و اختبار خوارزمية أمثلية من حيث الأداء و السرعة تصلح للتخزين المؤقت لأغراض الويب ذات المحتوى الديناميكي من خلال دراسة الخوارزميات التقليدية المعروفة في مجال التخزين المؤقت Caching لصفحات الويب و دراسة مدى موائمتها للتخزين ا لمؤقت لصفحات الويب ذات المحتوى الديناميكي لما لهذه الصفحات من أهمية و انتشار كبيرين في مواقع الويب و ما تسببه من حمل كبير على مخدمات الويب بهدف الوصول إلى الخوارزمية المطلوبة و التي ستحقق أداء أمثلياً في التعامل مع هذه الصفحات.
البحث عن الويب هو وسيلة أساسية للبشر للحصول على معلومات، لكنها لا تزال تحديا كبيرا للآلات لفهم محتويات صفحات الويب. في هذه الورقة، نقدم مهمة فهم القراءة الهيكلية المستندة إلى الويب. نظرا لصفحة ويب وسؤال حولها، فإن المهمة هي العثور على إجابة من صفحة ا لويب. تتطلب هذه المهمة نظام ليس فقط لفهم دلالات النصوص ولكن أيضا هيكل صفحة الويب. علاوة على ذلك، اقترحنا Webrc، وهي مجموعة بيانات فهم هيكلية قائمة على شبكة الإنترنت. تتكون WebSrc من أزواج من الإجابات السؤال 400K، والتي يتم جمعها من صفحات الويب 6.4K مع شفرة مصدر HTML المقابلة، لقطات الشاشة والبيانات الوصفية. يتطلب كل سؤال في WebSrc فهم هيكلي معين لصفحة ويب للإجابة، والإجابة إما تمتد عن نصوص على صفحة الويب أو نعم / لا. نحن نقيم مختلف خطوط الأساس القوية على مجموعة بياناتنا لإظهار صعوبة مهمتنا. نحن نحقق أيضا في فائدة المعلومات الهيكلية والميزات المرئية. كانت مجموعة البيانات وخطوط البيانات الخاصة بنا متاحة للجمهور.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا