ترغب بنشر مسار تعليمي؟ اضغط هنا

WebSrc: مجموعة بيانات لفهم القراءة الهيكلية المستندة إلى الويب

WebSRC: A Dataset for Web-Based Structural Reading Comprehension

441   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

البحث عن الويب هو وسيلة أساسية للبشر للحصول على معلومات، لكنها لا تزال تحديا كبيرا للآلات لفهم محتويات صفحات الويب. في هذه الورقة، نقدم مهمة فهم القراءة الهيكلية المستندة إلى الويب. نظرا لصفحة ويب وسؤال حولها، فإن المهمة هي العثور على إجابة من صفحة الويب. تتطلب هذه المهمة نظام ليس فقط لفهم دلالات النصوص ولكن أيضا هيكل صفحة الويب. علاوة على ذلك، اقترحنا Webrc، وهي مجموعة بيانات فهم هيكلية قائمة على شبكة الإنترنت. تتكون WebSrc من أزواج من الإجابات السؤال 400K، والتي يتم جمعها من صفحات الويب 6.4K مع شفرة مصدر HTML المقابلة، لقطات الشاشة والبيانات الوصفية. يتطلب كل سؤال في WebSrc فهم هيكلي معين لصفحة ويب للإجابة، والإجابة إما تمتد عن نصوص على صفحة الويب أو نعم / لا. نحن نقيم مختلف خطوط الأساس القوية على مجموعة بياناتنا لإظهار صعوبة مهمتنا. نحن نحقق أيضا في فائدة المعلومات الهيكلية والميزات المرئية. كانت مجموعة البيانات وخطوط البيانات الخاصة بنا متاحة للجمهور.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

دعا النجاح الأخير لنماذج اللغة العصبية (NLMS) على تحدي مخطط Winograd إلى مزيد من التحقيق في قدرة المنطق المنطقي لهذه النماذج. تعتمد مجموعات البيانات التشخيصية السابقة على مصادر الحشد التي تفشل في توفير أمر مناسب متماسك لحل مشاكل WSC. لتحسين تقييم NLM S بشكل أفضل، نقترح إطارا يستند إلى المنطق يركز على معرفة المناخية عالية الجودة. على وجه التحديد، نقوم بتحديد وجمع صيغ المعرفة الرسمية التي تم التحقق منها بواسطة Theorem Brovers وترجمة هذه الصيغ إلى جمل لغة طبيعية. بناء على جمل المعرفة الحقيقية هذه، يتم إنشاء تلك الخوذة الخاطئة. نقترح مجموعة بيانات جديدة تسمى Winologic مع هذه الجمل. نظرا لمشكلة Winologic، تحتاج NLMS إلى تحديد ما إذا كانت جمل المعرفة المعقولة يمكن أن تحل مشاكل WSC المقابلة بشكل صحيح في إعداد طلقة صفرية. نطلب أيضا عن النذوي البشري للتحقق من صحة نولولوجية لضمان أن يكون مقبول من الإنسان. تشير التجارب إلى أن NLMS ما زالت تكافح لفهم معرفة المنظمات كإنسان، مما يشير إلى المبالغة في تقدير قدرتهم في التفكير.
تتمثل المحور الخاص بتحليل المعنويات المستندة إلى جانب الجانب (ABAMA) على إزاحة شروط الجانب مع شروط الرأي المقابلة، والتي قد تستمد تنبؤات المعنويات أسهل. في هذه الورقة، نحقق في مهمة ABSA الموحدة من منظور فهم القراءة بالآلة (MRC) من خلال مراعاة أن الجا نب وشروط الرأي يمكن أن يكون بمثابة الاستعلام والإجابة في MRC Interchangeably. نقترح نماذج جديدة تسمى دور يقرأ آلة القراءة (RF-MRC) لحلها. في قلبها، تعتبر النتائج المتوقعة إما استخراج الأوجه (أكلت) أو مصطلحات الرأي (OTE) الاستعلامات، على التوالي، وتعتبر الرأي المتطابق أو شروط الجانب إجابات. يمكن انقلاب الاستفسارات والإجابات للكشف المتعدد القفز. أخيرا، يتم توقع كل زوج من جانب الرأي المتطابق مع مصنف المعنويات. RF-MRC يمكن أن يحل مهمة ABSA دون أي شرح بيانات إضافي أو تحويل. تجارب على ثلاثة معايير مستعملة على نطاق واسع ومجموعة بيانات صعبة توضح تفوق الإطار المقترح.
في هذه الورقة، نقترح نموذجا بسيطا للتكيف عن نطاق القليل من الرصاص لفهم القراءة. نحدد أولا هيكل الشبكة الفرعية اليانصيب ضمن نموذج مجال المصدر المستندة إلى المحولات عبر تشذيب درجة تدريجية. ثم، نحن فقط نغتنم الشبكة الفرعية اليانصيب، جزء صغير من المعلمات بأكملها، على بيانات المجال المستهدحة المشروح للتكيف. للحصول على المزيد من البرامج الفرعية القابلة للتكيف، نقدم إسناد ذوي الاهتمام الذاتي لوزن المعلمات، بما يتجاوز ببساطة تقليم أصغر معلمات الحجم، والذي يمكن أن ينظر إليه على أنه يجمع بين تشذيب الهيكل المنظم وتشذيم درجة غذائية بهدوء. تظهر النتائج التجريبية أن أسلوبنا تتفوق على التكيف النموذج الكامل للتوحيد على أربعة مجالات من خمسة مجالات عندما يكون فقط كمية صغيرة من البيانات المشروحة المتاحة للتكيف. علاوة على ذلك، فإن إدخال إيلاء الإهمال الذاتي الاحتياطيات معلمات أكثر لرؤوس الانتباه مهم في الشبكة الفرعية اليانصيب ويحسن أداء نموذج المجال الهدف. تكشف التحليلات الإضافية الخاصة بنا أنه، إلى جانب استغلال عدد أقل من المعلمات، فإن اختيار الشبكة الفرعية أمر بالغ الأهمية للفعالية.
كيف يمكننا أن نولد تفسيرات موجزة لفهم القراءة متعددة القفز (RC)؟ يمكن اعتبار الاستراتيجيات الحالية لتحديد الجمل الداعمة كأخصات تركز على الأسئلة الاستخراجية لنص المدخلات. ومع ذلك، فإن هذه التفسيرات الاستخراجية ليست بالضرورة موجزة، وليس كافية على الأقل للإجابة على سؤال. بدلا من ذلك، ندعو إلى نهج إغراق، حيث نقترح إنشاء ملخص ركز على أسئلة غير مركزة لفقرات الإدخال ثم إطعامها لنظام RC. بالنظر إلى كمية محدودة من التفسيرات الموضحة البشرية المشروح البشرية، فإننا نربع الشرح الإفجي بطريقة شبه إشراف، حيث نبدأ من النموذج الخاضع للإشراف، ثم تدريب عليه من خلال التجربة والخطأ تعظيم وظيفة المكافآت التي تمت ترقيتها على الحجز. توضح تجاربنا أن المفسر المفسد المقترح يمكن أن يولد توضيحات أكثر إحكاما من الشرح الاستخراجي مع إشراف محدود (مثيلات 2K فقط) مع الحفاظ على الاكتفاء.
عند قراءة قطعة أدبية، غالبا ما يصنع القراء استنتاجات حول أدوار الشخصيات والشخصيات والعلاقات والمهالية والإجراءات، وما إلى ذلك بينما يمكن للبشر السحب بسهولة على تجاربهم السابقة لبناء مثل هذه النظرة التي تركز على الطابع للسرد، فهم الشخصياتيمكن أن تكون الروايات مهمة صعبة للأجهزة.لتشجيع البحث في هذا المجال من فهم السرد المركزي بالشخصية، نقدم LCSU - مجموعة بيانات جديدة من القطع الأدبية وملخصاتها مقترن بأوصاف الشخصيات التي تظهر فيها.نقدم أيضا مهام جديدة على LCCU: تحديد الأحرف وتوليد وصف الشخصيات.تجاربنا مع العديد من النماذج اللغوية المدربة مسبقا مكيفة لهذه المهام توضح أن هناك حاجة إلى نماذج أفضل من الفهم السردي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا