ترغب بنشر مسار تعليمي؟ اضغط هنا

"دع شخصياتك تخبر قصتهم": مجموعة بيانات لفهم السرد المركزي بالشخصية

``Let Your Characters Tell Their Story'': A Dataset for Character-Centric Narrative Understanding

419   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

عند قراءة قطعة أدبية، غالبا ما يصنع القراء استنتاجات حول أدوار الشخصيات والشخصيات والعلاقات والمهالية والإجراءات، وما إلى ذلك بينما يمكن للبشر السحب بسهولة على تجاربهم السابقة لبناء مثل هذه النظرة التي تركز على الطابع للسرد، فهم الشخصياتيمكن أن تكون الروايات مهمة صعبة للأجهزة.لتشجيع البحث في هذا المجال من فهم السرد المركزي بالشخصية، نقدم LCSU - مجموعة بيانات جديدة من القطع الأدبية وملخصاتها مقترن بأوصاف الشخصيات التي تظهر فيها.نقدم أيضا مهام جديدة على LCCU: تحديد الأحرف وتوليد وصف الشخصيات.تجاربنا مع العديد من النماذج اللغوية المدربة مسبقا مكيفة لهذه المهام توضح أن هناك حاجة إلى نماذج أفضل من الفهم السردي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

على مدار العقد الماضي، طورت مجال معالجة اللغة الطبيعية مجموعة واسعة من الأساليب الحسابية لمعرفة الرواية، بما في ذلك تلخيص، استنتاج المنطقي، والكشف عن الحدث.في حين أن هذا العمل قد جلب عدسة تجريبية مهمة لفحص السرد، فهو مطلقات كبيرة من الجسم الكبير من ا لعمل النظري على السرد داخل العلوم الإنسانية والاجتماعية والعلوم المعرفية.في هذه الورقة الموضعية، نقدم الأطر النظرية المهيمنة إلى مجتمع NLP، وتوليد البحوث الحالية في NLP داخل التقاليد السريعة المميزة، وتجادل أن ربط العمل الحسابي في NLP بالنظرية يفتح مجموعة من الأسئلة التجريبية الجديدة التي من شأنها أن تساعد كلاهما في التقدم لدينافهم السرد وفتح تطبيقات عملية جديدة.
البحث عن الويب هو وسيلة أساسية للبشر للحصول على معلومات، لكنها لا تزال تحديا كبيرا للآلات لفهم محتويات صفحات الويب. في هذه الورقة، نقدم مهمة فهم القراءة الهيكلية المستندة إلى الويب. نظرا لصفحة ويب وسؤال حولها، فإن المهمة هي العثور على إجابة من صفحة ا لويب. تتطلب هذه المهمة نظام ليس فقط لفهم دلالات النصوص ولكن أيضا هيكل صفحة الويب. علاوة على ذلك، اقترحنا Webrc، وهي مجموعة بيانات فهم هيكلية قائمة على شبكة الإنترنت. تتكون WebSrc من أزواج من الإجابات السؤال 400K، والتي يتم جمعها من صفحات الويب 6.4K مع شفرة مصدر HTML المقابلة، لقطات الشاشة والبيانات الوصفية. يتطلب كل سؤال في WebSrc فهم هيكلي معين لصفحة ويب للإجابة، والإجابة إما تمتد عن نصوص على صفحة الويب أو نعم / لا. نحن نقيم مختلف خطوط الأساس القوية على مجموعة بياناتنا لإظهار صعوبة مهمتنا. نحن نحقق أيضا في فائدة المعلومات الهيكلية والميزات المرئية. كانت مجموعة البيانات وخطوط البيانات الخاصة بنا متاحة للجمهور.
أصبح على الإنترنت على الإنترنت مصدر قلق متزايد للنساء العربيات الذين يعانون من سوء المعاملة على الإنترنت على أساس الجنس على أساس يومي. يمكن أن تساعد أنظمة الكشف الأوتوماتيكية في كراثيلي في حظر المحتوى السام العربي للمرأة. يتم إعاقة تطوير هذه النظم من خلال عدم وجود مجموعات البيانات العربية القياسية. في هذه الورقة، نقدم مجموعة بيانات Twitter العربية ل Leavantine للغة الكهثرية (LET-MI) ليكون أول مجموعة بيانات معيار للكريساني. نوفر كذلك مراجعة تفصيلية لخلق البيانات ومراحل التوضيحية. تم التأكيد على اتساق التوضيحية الخاصة ب DataSet المقترحة من خلال تدابير تقييم الاتفاقية بين الخصوصية. علاوة على ذلك، تم استخدام دعونا كمادة بيانات تقييم من خلال مهام التصنيف الثنائية / متعددة المستهدفة التي أجرتها العديد من أنظمة تعلم الآلات ذات الجهاز من خلال تكوين التعلم المتعدد المهام (MTL). أشارت النتائج التي تم الحصول عليها إلى أن العروض التي حققتها النظم المستخدمة تتسق مع النتائج الحديثة لغات أخرى غير اللغة العربية، أثناء توظيف MTL تحسن أداء مهام التصنيف الكبرى / الهدف.
تقدم هذه الورقة StoryDB --- مجموعة بيانات واسعة متعددة اللغات من الروايات.StoryDB هي جثة من النصوص التي تضم قصص في 42 لغة مختلفة.تتضمن كل لغة 500+ قصص.تشمل بعض اللغات أكثر من 20 ألف قصة.يتم فهرسة كل قصة عبر اللغات والمسمى مع العلامات مثل النوع أو الم وضوع.يعرض Corpus تباين موضعي ولغوي غني ويمكن أن يكون بمثابة مورد لدراسة دور السرد في معالجة اللغة الطبيعية في مختلف اللغات بما في ذلك الموارد المنخفضة.نوضح أيضا كيف يمكن استخدام مجموعة البيانات لقياس ثلاث نماذج متعددة اللغات الحديثة، وهي mdistillbert و mbert و xlm-roberta.
تحديد مصطلحات المصطلحات هي الخطوة الأولى في التواصل العلمي. يمكن تطوير نماذج توليد النص العصبي لتوليد التعريف التحايل على منحك كثافة العمل، مما يؤدي إلى مزيد من تسريع الاكتشاف العلمي. لسوء الحظ، فإن الافتقار إلى مجموعة بيانات تعريف المصطلحات واسعة ال نطاق تعوق العملية نحو توليد التعريف. في هذه الورقة، نقدم مجموعة بيانات تعريف مصطلحات واسعة النطاق تغطي أزواج تعريف تعريف المصطلحات 2،010،648، وتمتد 227 من الفضائح الطبية الحيوية. تشكل المصطلحات المصطلحات في كل فرع من الفعالة رسم بياني Acyclic موجه مؤقتا، حيث فتح طرق جديدة لتطوير نماذج توليد الرسومات في الرسم البياني. بعد ذلك اقترحنا نموذج جيل تعريف الرسم البياني للرسوم البياني الرواية التي تدمج المحولات مع شبكة عصبية الرسم البياني. ينفأ النموذج لدينا على نماذج توليد النص الموجودة من خلال استغلال بنية الرسم البياني للمصطلحات. أظهرنا أيضا كيف يمكن استخدام الرسوم البيانية لتقييم نماذج اللغة المحددة مسبقا، ومقارنة أساليب تعلم التمثيل الرسم البياني والتنبؤ بالحكومة. نحن نتصور الرسوم البيانية لتكون مصدرا فريدا لتوليد التعريف والعديد من مهام NLP الأخرى في الطب الحيوي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا