ترغب بنشر مسار تعليمي؟ اضغط هنا

مجموعة بيانات قائمة على ويكيبيديا لرواية ملخصة أحادية وتبادلة

A Novel Wikipedia based Dataset for Monolingual and Cross-Lingual Summarization

362   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

التلخصات المتبقية هي مهمة صعبة لا توجد موارد علمية عبر اللغات المتاحة حاليا. للتغلب على عدم وجود مورد عالي الجودة، نقدم مجموعة بيانات جديدة لتلخيص أحادي اللغة وتبادر بالنظر إلى الزوج الإنجليزي الألماني. نقوم بجمع بيانات عالية الجودة العالية والعالمية من SPEKTRUM DER WISSENSCHAFT، والتي تنشر ملخصات علمية ألمانية مكتوب بشرية من مقالات علمية باللغة الإنجليزية حول مختلف الموضوعات. مجموعة بيانات Spektrum التي تم إنشاؤها صغيرة؛ لذلك، نحث مجموعة بيانات مماثلة من بوابة علوم ويكيبيديا لاستكمالها. تتكون DataSet Wikipedia من مقالات باللغة الإنجليزية والألمانية، والتي يمكن استخدامها في تلخيص أحادي ومقاطع. علاوة على ذلك، نقدم تحليلا كميا لمجموعات البيانات ونتائج التجارب التجريبية مع العديد من نماذج تلخيص الاستخراجية والمخفية القائمة. تشير النتائج إلى جدوى وفيد بيانات البيانات المقترحة لتلخيص أحادي وطني وتبادل اللغات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الدراسة وتحليلات WikitalkEdit وديجمات من المحادثات وتعديل التواريخ من ويكيبيديا، للبحث في التعاون عبر الإنترنت ونمذجة المحادثة. تضم DataSet ثلاث مرات حوار من صفحات الحديث Wikipedia، وتحرير الإجراءات على المقالات المقابلة التي تتم مناقشتها. ن ظرا لكيفية دعم البيانات الفهم الكلاسيكي للمطابقة النمط، حيث تتوقع العاطفة الإيجابية واستخدام الضمائر ذات الشخص الأول تغييرا عاطفيا إيجابي في مساهم ويكيبيديا. ومع ذلك، فإنهم لا يتوقعون سلوك التحرير. من ناحية أخرى، فإن ردود الفعل التي تم استدعاء الوكلاء والنقد، والمراجع إلى قواعد المجتمع في ويكيبيديا، من المرجح أن تقنع المساهم في أداء التعديلات ولكنها أقل عرضة للتأدي إلى مشاعر إيجابية. لقد قمنا بتطوير مصنفات أساسية مدربة على ميزات روبرتا مدربة مسبقا والتي يمكن أن تتنبأ بالتغيير التحريري بدرجة F1 من .54، بالمقارنة مع درجة F1 من .66 للتنبؤ بالتغيير العاطفي. كما يتم توفير تحليل تشخيصي للأخطاء الاستمرارية. نستنتج مع التطبيقات والتوصيات المحتملة للعمل في المستقبل. تتوفر DataSet علنا ​​لمجتمع البحث في https://github.com/kj2013/wikitalkedit/.
تتطلب العديد من التطبيقات توليد ملخصات مصممة خصيصا لاحتياجات معلومات المستخدم، أي نواياها. الأساليب التي تعبر عن النية عبر استعلامات المستخدم الصريحة تسقط قصيرة عند التفسير الاستعلام هو شخصي. توجد عدة مجموعات من مجموعات البيانات للتخصيص مع النوايا ال موضوعية حيث، لكل وثيقة ونوايا (E.G.، Weather ")، تكفي موجز واحد لجميع المستخدمين. لا توجد مجموعات البيانات، ومع ذلك، بالنسبة للمؤلفة الذاتية (E.G.، الأماكن المثيرة للاهتمام ") حيث سيقدم المستخدمون المختلفون ملخصات مختلفة. نحن نقدم العانة، أول مجموعة البيانات لتقييم أنظمة استخراج الملخص الذاتي. تحتوي STALUME على ثلاثة أفراد (وثيقة، نية، ملخص) ثلاثة توائم أكثر من 48 صفحة ويكيبيديا، مع عشرة نوبة ذاتي اختلاف ذاتي، والتي توفرها 103 فردا على الترك الميكانيكي. نوضح إحصائيا أن النوايا في SARMENT تختلف بشكل منهجي في الذاتية. للإشارة إلى فائدة SUTTUME، نستكشف مجموعة من خوارزميات أساسية لتلخيص استخراجي ذاتي وإظهار أن (I) كما هو متوقع، فإن النهج القائمة على سبيل المثال، من الأفضل أن تلتقط النوايا ذاتية من تلك القائمة على الاستعلام، و (2) هناك نطاق واسع لتحسينه خوارزميات الأساس، وبالتالي تحفز المزيد من الأبحاث حول هذه المشكلة الصعبة.
التلخصات القائمة على الجانب المجردة هي مهمة توليد ملخصات مركزة تستند إلى نقاط اهتمام محددة. هذه الملخصات تساعد تحليل فعال للنص، مثل فهم الاستعراضات أو الآراء بسرعة من زوايا مختلفة. ومع ذلك، نظرا للاختلافات الكبيرة في نوع الجوانب لمجالات مختلفة (مثل ا لمشاعر، ميزات المنتج)، تميل تطوير النماذج السابقة إلى أن تكون خاصة بالمجال. في هذه الورقة، نقترح WikiAsp، 1 مجموعة بيانات واسعة النطاق لتلخيص القائم على الجانب متعدد المجالات التي تحاول تحفيز البحث في اتجاه التلخيص المستند إلى جانب النطاق. على وجه التحديد، نبني DataSet باستخدام مقالات Wikipedia من 20 مجالات مختلفة، باستخدام عناوين القسم وحدود كل مقال كوكيل للتعليق على الجانب. نقترح العديد من النماذج الأساسية المباشرة لهذه المهمة وإجراء تجارب على مجموعة البيانات. تسليط الضوء على النتائج التحديات الرئيسية التي تواجهها نماذج التلخيص الموجودة في هذا الإعداد، مثل التعامل مع الضمير المناسب للمصادر المعروضة والشرح المستمر للأحداث الحساسة للوقت.
وقد حافظت العلامات الدلالية المتعددة اللغات واللغات الدلالية (SRL) مؤخرا عن الاهتمام المتزايد لأن تقنيات تمثيل النص متعدد اللغات أصبحت أكثر فعالية ومتاحة على نطاق واسع. في حين أن العمل الحديث قد حقق النجاح المتزايد، فإن النتائج على معايير الذهب متعدد ة اللغات لا تزال غير قابلة للمقارنة بسهولة عبر اللغات، مما يجعل من الصعب فهم حيث نقف. على سبيل المثال، في Conll-2009، تتأثر المقارنات القياسية لمعيار SRL متعدد اللغات، وهي مقارنات لغة إلى لغوية بحقيقة أن كل لغة لها مجموعة بيانات خاصة بها والتي تختلف عن الآخرين في الحجم والمجالات ومجموعات من التسميات والإرشادات التوضيحية. في هذه الورقة، نتعلم هذه المشكلة واقترح United-SRL، معيار جديد لعطلة SRL متعددة اللغات والتبادلة والاعتماد على التبعية. يوفر United-SRL شرحا متوازيا من الخبراء باستخدام مخزون هيكل الوسائد المشترك، مما يسمح بالمقارنات المباشرة عبر اللغات والدراسات المشجعة على النقل عبر اللغات في SRL. نقوم بإصدار United-SRL V1.0 في https://github.com/sapienzanlp/united-srl.
دقة Aqueference Coreference Coreence هي مهمة مؤسسية لتطبيقات NLP التي تنطوي على معالجة النص المتعدد. ومع ذلك، فإن شركة كوربيا الحالية لهذه المهمة نادرة وصغيرة نسبيا، بينما تعلق فقط مجموعات من المستندات المتواضعة فقط من الوثائق التي تنتمي إلى نفس المو ضوع. لاستكمال هذه الموارد وتعزيز البحوث المستقبلية، نقدم حفل الحدث في ويكيبيديا (WEC)، وهي منهجية فعالة لجمع مجموعة بيانات واسعة النطاق لحدث الحدث عبر المستندات من ويكيبيديا، حيث لا يتم تقييد روابط Coreference داخل مواضيع محددة مسبقا. نحن نطبق هذه المنهجية على Wikipedia الإنجليزية واستخراج مجموعة بيانات WEC-ENG الواسعة النطاق. وخاصة، طريقة إنشاء DataSet لدينا عام ويمكن تطبيقها مع القليل من الجهود الأخرى لغات ويكيبيديا الأخرى. لضبط نتائج خط الأساس، نقوم بتطوير خوارزمية تتكيف مع مكونات النماذج الحديثة في دقة COMERACARY داخل الوثيقة إلى إعداد المستندات عبر المستندات. النموذج لدينا هو فعال بشكل مناسب وتفوق النتائج التي تم نشرها سابقا من النتائج التي تم نشرها مسبقا للمهمة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا