ترغب بنشر مسار تعليمي؟ اضغط هنا

البحث عن الويب هو وسيلة أساسية للبشر للحصول على معلومات، لكنها لا تزال تحديا كبيرا للآلات لفهم محتويات صفحات الويب. في هذه الورقة، نقدم مهمة فهم القراءة الهيكلية المستندة إلى الويب. نظرا لصفحة ويب وسؤال حولها، فإن المهمة هي العثور على إجابة من صفحة ا لويب. تتطلب هذه المهمة نظام ليس فقط لفهم دلالات النصوص ولكن أيضا هيكل صفحة الويب. علاوة على ذلك، اقترحنا Webrc، وهي مجموعة بيانات فهم هيكلية قائمة على شبكة الإنترنت. تتكون WebSrc من أزواج من الإجابات السؤال 400K، والتي يتم جمعها من صفحات الويب 6.4K مع شفرة مصدر HTML المقابلة، لقطات الشاشة والبيانات الوصفية. يتطلب كل سؤال في WebSrc فهم هيكلي معين لصفحة ويب للإجابة، والإجابة إما تمتد عن نصوص على صفحة الويب أو نعم / لا. نحن نقيم مختلف خطوط الأساس القوية على مجموعة بياناتنا لإظهار صعوبة مهمتنا. نحن نحقق أيضا في فائدة المعلومات الهيكلية والميزات المرئية. كانت مجموعة البيانات وخطوط البيانات الخاصة بنا متاحة للجمهور.
أحدثت النماذج المدربة (E2E) مؤخرا (E2E) لصالح الإجابة على الرسوم البيانية المعرفة (KGQA) نتائج واعدة تستخدم فقط مجموعة بيانات خاضعة للإشراف.ومع ذلك، يتم تدريب هذه النماذج وتقييمها في وضع يتم فيه توفير كيانات سؤال مشروح يدوية للنموذج، مما يترك المهمة المهمة وغير التافهة لقرار الكيان (ER) خارج نطاق تعلم E2E.في هذا العمل، نقوم بتوسيع حدود التعلم E2E ل KGQA لتضمين تدريب مكون ER.يحتاج النموذج الخاص بنا فقط إلى نص الأسئلة والكيانات الإجابة لتدريب، وتوفر نموذج ضمان الجودة المستقل لا يتطلب توفير مكون إضافي ER أثناء وقت التشغيل.نهجنا هو قابل له تماما، وذلك بفضل اعتماده على طريقة حديثة لبناء KGS الفائقة (كوهين وآخرون، 2020).نقوم بتقييم نموذج E2E المدربين على مجموعة بيانات عامين وإظهار أنه يقترب من النماذج الأساسية التي تستخدم الكيانات المشروح اليدوية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا