البحث عن الويب هو وسيلة أساسية للبشر للحصول على معلومات، لكنها لا تزال تحديا كبيرا للآلات لفهم محتويات صفحات الويب. في هذه الورقة، نقدم مهمة فهم القراءة الهيكلية المستندة إلى الويب. نظرا لصفحة ويب وسؤال حولها، فإن المهمة هي العثور على إجابة من صفحة الويب. تتطلب هذه المهمة نظام ليس فقط لفهم دلالات النصوص ولكن أيضا هيكل صفحة الويب. علاوة على ذلك، اقترحنا Webrc، وهي مجموعة بيانات فهم هيكلية قائمة على شبكة الإنترنت. تتكون WebSrc من أزواج من الإجابات السؤال 400K، والتي يتم جمعها من صفحات الويب 6.4K مع شفرة مصدر HTML المقابلة، لقطات الشاشة والبيانات الوصفية. يتطلب كل سؤال في WebSrc فهم هيكلي معين لصفحة ويب للإجابة، والإجابة إما تمتد عن نصوص على صفحة الويب أو نعم / لا. نحن نقيم مختلف خطوط الأساس القوية على مجموعة بياناتنا لإظهار صعوبة مهمتنا. نحن نحقق أيضا في فائدة المعلومات الهيكلية والميزات المرئية. كانت مجموعة البيانات وخطوط البيانات الخاصة بنا متاحة للجمهور.
Web search is an essential way for humans to obtain information, but it's still a great challenge for machines to understand the contents of web pages. In this paper, we introduce the task of web-based structural reading comprehension. Given a web page and a question about it, the task is to find an answer from the web page. This task requires a system not only to understand the semantics of texts but also the structure of the web page. Moreover, we proposed WebSRC, a novel Web-based Structural Reading Comprehension dataset. WebSRC consists of 400K question-answer pairs, which are collected from 6.4K web pages with corresponding HTML source code, screenshots, and metadata. Each question in WebSRC requires a certain structural understanding of a web page to answer, and the answer is either a text span on the web page or yes/no. We evaluate various strong baselines on our dataset to show the difficulty of our task. We also investigate the usefulness of structural information and visual features. Our dataset and baselines have been publicly available.
المراجع المستخدمة
https://aclanthology.org/
دعا النجاح الأخير لنماذج اللغة العصبية (NLMS) على تحدي مخطط Winograd إلى مزيد من التحقيق في قدرة المنطق المنطقي لهذه النماذج. تعتمد مجموعات البيانات التشخيصية السابقة على مصادر الحشد التي تفشل في توفير أمر مناسب متماسك لحل مشاكل WSC. لتحسين تقييم NLM
تتمثل المحور الخاص بتحليل المعنويات المستندة إلى جانب الجانب (ABAMA) على إزاحة شروط الجانب مع شروط الرأي المقابلة، والتي قد تستمد تنبؤات المعنويات أسهل. في هذه الورقة، نحقق في مهمة ABSA الموحدة من منظور فهم القراءة بالآلة (MRC) من خلال مراعاة أن الجا
في هذه الورقة، نقترح نموذجا بسيطا للتكيف عن نطاق القليل من الرصاص لفهم القراءة. نحدد أولا هيكل الشبكة الفرعية اليانصيب ضمن نموذج مجال المصدر المستندة إلى المحولات عبر تشذيب درجة تدريجية. ثم، نحن فقط نغتنم الشبكة الفرعية اليانصيب، جزء صغير من المعلمات
كيف يمكننا أن نولد تفسيرات موجزة لفهم القراءة متعددة القفز (RC)؟ يمكن اعتبار الاستراتيجيات الحالية لتحديد الجمل الداعمة كأخصات تركز على الأسئلة الاستخراجية لنص المدخلات. ومع ذلك، فإن هذه التفسيرات الاستخراجية ليست بالضرورة موجزة، وليس كافية على الأقل
عند قراءة قطعة أدبية، غالبا ما يصنع القراء استنتاجات حول أدوار الشخصيات والشخصيات والعلاقات والمهالية والإجراءات، وما إلى ذلك بينما يمكن للبشر السحب بسهولة على تجاربهم السابقة لبناء مثل هذه النظرة التي تركز على الطابع للسرد، فهم الشخصياتيمكن أن تكون