البحث عن الويب هو وسيلة أساسية للبشر للحصول على معلومات، لكنها لا تزال تحديا كبيرا للآلات لفهم محتويات صفحات الويب. في هذه الورقة، نقدم مهمة فهم القراءة الهيكلية المستندة إلى الويب. نظرا لصفحة ويب وسؤال حولها، فإن المهمة هي العثور على إجابة من صفحة الويب. تتطلب هذه المهمة نظام ليس فقط لفهم دلالات النصوص ولكن أيضا هيكل صفحة الويب. علاوة على ذلك، اقترحنا Webrc، وهي مجموعة بيانات فهم هيكلية قائمة على شبكة الإنترنت. تتكون WebSrc من أزواج من الإجابات السؤال 400K، والتي يتم جمعها من صفحات الويب 6.4K مع شفرة مصدر HTML المقابلة، لقطات الشاشة والبيانات الوصفية. يتطلب كل سؤال في WebSrc فهم هيكلي معين لصفحة ويب للإجابة، والإجابة إما تمتد عن نصوص على صفحة الويب أو نعم / لا. نحن نقيم مختلف خطوط الأساس القوية على مجموعة بياناتنا لإظهار صعوبة مهمتنا. نحن نحقق أيضا في فائدة المعلومات الهيكلية والميزات المرئية. كانت مجموعة البيانات وخطوط البيانات الخاصة بنا متاحة للجمهور.