ترغب بنشر مسار تعليمي؟ اضغط هنا

بيانات Aquerence Event (تقريبا) مجانا: تعلب الارتباطات التشعبية من الأخبار عبر الإنترنت

Event Coreference Data (Almost) for Free: Mining Hyperlinks from Online News

402   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تحليل Coreference Event Dockence (CDCR) هي مهمة تحديد الأحداث التي تشير إلى نفس الأحداث طوال مجموعة من المستندات. تعد شرح بيانات CDCR عملية شاقة ومكلفة، موضحا سبب وجود كورسا الموجودة صغيرة وتفتقر إلى تغطية المجال. للتغلب على هذه الاختناق، نستخلك تلقائيا بيانات Coreference من الارتباطات التشعبية في الأخبار عبر الإنترنت: عند الإشارة إلى حدث كبير في العالم الحقيقي، غالبا ما يقوم الكتاب في كثير من الأحيان بإضافة ارتباط تشعبي إلى مقالة أخرى تغطي هذا الحدث. نوضح أن جمع الارتباطات التشعبية التي تشير إلى نفس المقالة (الأقوالية) تنتج بيانات CDCR واسعة عالية الجودة وإنشاء كائن من وثائق 2M وذكر الحدث الفضي القياسي 2.7M يسمى HyperCoref. نقيم نظام أحدث على ثلاثة CDCR Corpora ويجد أن النماذج المدربة على مجموعات فرعية صغيرة من Hypercoref تنافسية للغاية، مع أداء مشابه للنماذج المدربة على البيانات الذهبية القياسية. مع عملنا، نقوم بحرية بحث CDCR من اعتمادا على بيانات التدريب المكلفة المشروح البشرية وتفتتح إمكانيات للبحث عن البحوث بعد أن يتم تكييف نهج استخراج البيانات لدينا بسهولة مع لغات أخرى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

دقة Aqueference Coreference Coreence هي مهمة مؤسسية لتطبيقات NLP التي تنطوي على معالجة النص المتعدد. ومع ذلك، فإن شركة كوربيا الحالية لهذه المهمة نادرة وصغيرة نسبيا، بينما تعلق فقط مجموعات من المستندات المتواضعة فقط من الوثائق التي تنتمي إلى نفس المو ضوع. لاستكمال هذه الموارد وتعزيز البحوث المستقبلية، نقدم حفل الحدث في ويكيبيديا (WEC)، وهي منهجية فعالة لجمع مجموعة بيانات واسعة النطاق لحدث الحدث عبر المستندات من ويكيبيديا، حيث لا يتم تقييد روابط Coreference داخل مواضيع محددة مسبقا. نحن نطبق هذه المنهجية على Wikipedia الإنجليزية واستخراج مجموعة بيانات WEC-ENG الواسعة النطاق. وخاصة، طريقة إنشاء DataSet لدينا عام ويمكن تطبيقها مع القليل من الجهود الأخرى لغات ويكيبيديا الأخرى. لضبط نتائج خط الأساس، نقوم بتطوير خوارزمية تتكيف مع مكونات النماذج الحديثة في دقة COMERACARY داخل الوثيقة إلى إعداد المستندات عبر المستندات. النموذج لدينا هو فعال بشكل مناسب وتفوق النتائج التي تم نشرها سابقا من النتائج التي تم نشرها مسبقا للمهمة.
يستخدم الأشخاص من المنتديات عبر الإنترنت إما أن نبحث عن معلومات أو للمساهمة به. بسبب شعبيتها المتنامية، تم إنشاء بعض المنتديات عبر الإنترنت خصيصا لتوفير الدعم والمساعدة والآراء للأشخاص الذين يعانون من مرض عقلي. الاكتئاب هو واحد من الأمراض النفسية الأ كثر شيوعا في جميع أنحاء العالم. يتواصل الأشخاص المزيد من المنتديات عبر الإنترنت للعثور على إجابات لأمراضهم النفسية. ومع ذلك، لا توجد آلية لقياس شدة الاكتئاب في كل وظيفة وإعطاء أهمية أعلى لأولئك الذين يشخصون بالاكتئاب بشدة. على الرغم من أن العديد من الأبحاث التي تستند إلى بيانات المنتدى عبر الإنترنت وتحديد الاكتئاب قد أجريت، نادرا ما يتم استكشاف شدة الاكتئاب. بالإضافة إلى ذلك، فإن غياب مجموعات البيانات سوف تنموي تطوير إجراءات تشخيصية جديدة للممارسين. من هذه الدراسة، نقدم مجموعة بيانات لدعم البحوث حول تقييم شدة الاكتئاب. النهج الحسابي لقياس عملية تلقائية، خطورة محددة من الاكتئاب هنا نهج جديد تماما. ومع ذلك، هناك حاجة إلى ذلك، هناك حاجة إلى هذا القياس الموضعي للاكتئاب في مشاركات المنتدى عبر الإنترنت لضمان موازين القياس المستخدمة في بحثنا يجتمع مع القواعد المتوقعة للبحث العلمي.
يمكن تحسين جودة الترجمة من خلال المعلومات العالمية من الجملة المستهدفة المطلوبة لأن وحدة فك الترميز يمكن أن تفهم كل من المعلومات السابقة والمستقبلية.ومع ذلك، يحتاج النموذج إلى تكلفة إضافية لإنتاج والنظر في هذه المعلومات العالمية.في هذا العمل، لحقن مع لومات عالمية ولكن أيضا توفير التكلفة، نقدم طريقة فعالة للعينة والنظر في مشروع دلالي كمعلومات عالمية من الفضاء الدلالي ل فكيبها مع خالية من التكلفة تقريبا.على عكس التكيفات الناجحة الأخرى، لا يتعين علينا تنفيذ عملية تشبه ممن عينات مرارا وتكرارا من الفضاء الدلالي المحتمل.تظهر التجارب التجريبية أن الطريقة المقدمة يمكن أن تحقق أداء تنافسي في أزواج اللغة المشتركة مع ميزة واضحة في كفاءة الاستدلال.سنفتح جميع التعليمات البرمجية المصدر الخاصة بنا على Github.
في هذه الورقة، نقدم حسابا لكيفية نقلنا دورة نصية للتعدين النصوص عبر الإنترنت في الصيف 2020 نتيجة لوباء CovID-19 وكيف نحسنها في المدى الطيار الثاني.نحن تصف الدورة التدريبية، وكيف قمنا بتكييفها على المدىين الطيارين وما تقنيات التدريس التي اعتدنا عليها تحسين تعلم الطلاب وبناء المجتمع عبر الإنترنت.كما نقدم معلومات عن الملاحظات بدون مساء التي تم جمعها خلال الدورة التدريبية التي ساعدتنا في تكييف تدريسنا من جلسة واحدة إلى الطيار التالي والآخر إلى التالي.نناقش الدروس المستفادة وتعزيز استخدام تقنيات التدريس المبتكرة المطبقة على الرقمية مثل الشارات الرقمية وبرمجة الزوج في غرف التحرذة لتدريس دورات معالجة اللغة الطبيعية للمبتدئين والطلاب مع خلفيات مختلفة.
أحضر جائحة Covid-19 المستمر التعليم عبر الإنترنت في طليعة المناقشات التربوية. لجعل هذه الفائدة المتزايدة المستدامة في حقبة ما بعد الوباء، يجب بناء الدورات التدريبية عبر الإنترنت على أسس ترياجية قوية. مع تاريخ طويل من البحث التربوي، هناك العديد من الم بادئ والأطر والنماذج المتاحة لمساعدة المعلمين في القيام بذلك. تغطي هذه النماذج وجهات نظر تدريس مختلفة، مثل المحاذاة البناءة والتعليقات وبيئة التعلم. في هذه الورقة، نناقش كيف صممنا ونفذت دورة معالجة اللغات الطبيعية على الإنترنت (NLP) عبر الإنترنت بعد المحاذاة البناءة والالتزام بالمبادئ التربوية لل LTU. من خلال فحص الدورة التدريبية لدينا وتحليل نماذج تقييم الطلاب، نوضح أننا حققنا هدفنا وتقديمها بنجاح الدورة. علاوة على ذلك، نناقش الفوائد الإضافية الناتجة عن الوضع الحالي للتسليم، بما في ذلك زيادة إعادة استخدام محتوى الدورة التدريبية وزيادة إمكانات التعاون بين الجامعات. أخيرا، نناقش أيضا حيث يمكننا وسنمزيد من تحسين تصميم الدورة التدريبية الحالية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا