ترغب بنشر مسار تعليمي؟ اضغط هنا

WikiAiAIASP: مجموعة بيانات لتلخيص القائم على الجانب المجال

WikiAsp: A Dataset for Multi-domain Aspect-based Summarization

138   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التلخصات القائمة على الجانب المجردة هي مهمة توليد ملخصات مركزة تستند إلى نقاط اهتمام محددة. هذه الملخصات تساعد تحليل فعال للنص، مثل فهم الاستعراضات أو الآراء بسرعة من زوايا مختلفة. ومع ذلك، نظرا للاختلافات الكبيرة في نوع الجوانب لمجالات مختلفة (مثل المشاعر، ميزات المنتج)، تميل تطوير النماذج السابقة إلى أن تكون خاصة بالمجال. في هذه الورقة، نقترح WikiAsp، 1 مجموعة بيانات واسعة النطاق لتلخيص القائم على الجانب متعدد المجالات التي تحاول تحفيز البحث في اتجاه التلخيص المستند إلى جانب النطاق. على وجه التحديد، نبني DataSet باستخدام مقالات Wikipedia من 20 مجالات مختلفة، باستخدام عناوين القسم وحدود كل مقال كوكيل للتعليق على الجانب. نقترح العديد من النماذج الأساسية المباشرة لهذه المهمة وإجراء تجارب على مجموعة البيانات. تسليط الضوء على النتائج التحديات الرئيسية التي تواجهها نماذج التلخيص الموجودة في هذا الإعداد، مثل التعامل مع الضمير المناسب للمصادر المعروضة والشرح المستمر للأحداث الحساسة للوقت.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تصبح التلخصات متعددة الوسائط ذات أهمية متزايدة لأنها هي أساس الإجابة على السؤال والبحث على شبكة الإنترنت والعديد من المهام الأخرى المصب الأخرى.ومع ذلك، فإن موادها التعليمية تفتقر إلى منظمة شاملة من خلال دمج الموارد من الطرائق المختلفة، مما يتخلف عن ا لتقدم المحرز البحثي في هذا المجال.في هذه الدراسة، نطلق عن مجموعة بيانات متعددة الوسائط واسعة النطاق تجمع الوثائق والملخصات والصور والتسميات التوضيحية ومقاطع الفيديو والصوتيات والمنصات واللقب باللغة الإنجليزية من CNN و Daily Mail.لدينا أفضل المعرفة لدينا، هذه هي المجموعة الأولى التي تدعم جميع الطرائق وتشمل ما يقرب من جميع أنواع المواد المتاحة في هذا المجتمع.بالإضافة إلى ذلك، نحن ابتكر نموذج خط الأساس استنادا إلى مجموعة البيانات الجديدة، والذي يستخدم آلية تقفيز تقترح حديثا على أساس النصوص.تتحقق النتائج التجريبية دور المساعدة الهامة للمعلومات الخارجية لتلخيص متعدد الوسائط.
تقدم هذه الورقة MediaSum، مجموعة بيانات مقابلة الوسائط على نطاق واسع تتكون من نصوص 463.6 كيلو بايت مع ملخصات إبتياج.لإنشاء هذه البيانات، نجمع مخالفات المقابلة من NPR و CNN وتوظيف نظرة عامة وأوصاف موضوع كملخصات.مقارنة مع الشركة العامة القائمة للحصول ع لى تلخيص الحوار، فإن DataSet لدينا هي أمر من حيث الحجم ويحتوي على محادثات متعددة الأحزاب المعقدة من مجالات متعددة.نقوم بإجراء تحليل إحصائي لإظهار التحيز الموضعي الفريد المعروض في نصوص المقابلات التلفزيونية والإذاعية.نظهر أيضا أن MediaSum يمكن استخدامه في تعلم التعلم لتحسين أداء نموذج على مهام تلخيص حوار أخرى.
التلخصات المتبقية هي مهمة صعبة لا توجد موارد علمية عبر اللغات المتاحة حاليا. للتغلب على عدم وجود مورد عالي الجودة، نقدم مجموعة بيانات جديدة لتلخيص أحادي اللغة وتبادر بالنظر إلى الزوج الإنجليزي الألماني. نقوم بجمع بيانات عالية الجودة العالية والعالمية من SPEKTRUM DER WISSENSCHAFT، والتي تنشر ملخصات علمية ألمانية مكتوب بشرية من مقالات علمية باللغة الإنجليزية حول مختلف الموضوعات. مجموعة بيانات Spektrum التي تم إنشاؤها صغيرة؛ لذلك، نحث مجموعة بيانات مماثلة من بوابة علوم ويكيبيديا لاستكمالها. تتكون DataSet Wikipedia من مقالات باللغة الإنجليزية والألمانية، والتي يمكن استخدامها في تلخيص أحادي ومقاطع. علاوة على ذلك، نقدم تحليلا كميا لمجموعات البيانات ونتائج التجارب التجريبية مع العديد من نماذج تلخيص الاستخراجية والمخفية القائمة. تشير النتائج إلى جدوى وفيد بيانات البيانات المقترحة لتلخيص أحادي وطني وتبادل اللغات.
Rouge هو متري تقييم واسع الاستخدام في تلخيص النص.ومع ذلك، فإنه غير مناسب لتقييم أنظمة تلخيص الجماع حيث تعتمد على التداخل المعجمي بين معيار الذهب والملخصات التي تم إنشاؤها.يصبح هذا القيد أكثر وضوحا للغات الشاقة مع المفردات الكبيرة جدا ونسب عالية النوع / الرمز المميز.في هذه الورقة، نقدم نماذج التشابه الدلالي لأتراك وتطبيقها كقائد تقييم لمهمة تلخيص مبادرة.لتحقيق ذلك، قامنا بترجمة مجموعة بيانات STSB الإنجليزية إلى تركية وعرضت بيانات التشابه الدلالي الأول للتركية أيضا.أظهرنا أن أفضل نماذج التشابه لدينا لها محاذاة أفضل مع الأحكام البشرية المتوسطة مقارنة بالحصان في كل من علاقات بيرسون ورأس.
في هذه الورقة، نقدم تحديثا كبيرا إلى أول بيانات كيكة مجرية مسماة، The Szeged Ner Corpus.استخدمنا النقل الصفر - النار عبر اللغات لتهيئة تخصيب أنواع الكيان المشروح في الجسر باستخدام ثلاث نماذج NER العصبية: اثنان منها بناء على Corpus English Ontonotes و One استنادا إلى Czech Cority Corpus Corpus Finetuned من نماذج اللغة العصبية متعددة اللغاتوبعدتم دمج إخراج النماذج تلقائيا مع التوضيحية الأصلية NER، وتصحيحها تلقائيا وتوجه المزيد من التوضيح الإضافي، مثل التصفيات اللازمة لأنواع الكيانات المختلفة.نقدم تقييم الأداء الصفر بالرصاص للنماذج التي تستند إلى OnTonotes ونموذج NEM جديد يستند إلى المحولات التي تم تدريبها على الجزء التدريبي من The Final Corpus.نحن نفرج عن كوربوس والنموذج المدربين.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا