تلخيص النص التلقائي (ATS) هو مهمة توليد ملخصات موجزة وطلاقة من مستند واحد أو أكثر.في هذه الورقة، نقدم ICESUM، أول كوربوس الأيسلندية المشروح مع ملخصات تولدها الإنسان.يتكون ICESUM من 1000 مقالة إخبارية عبر الإنترنت ملخصاتها الاستخراجية.نحن ندرب وتقييم العديد من النماذج القائمة على الشبكة العصبية في هذه البيانات، ومقارنتها ضد مجموعة مختارة من الأساليب الأساسية.نجد أن نموذج فك ترميز التشفير مع النازع المستند إلى التسلسل يحصل على أفضل النتائج، مما يتفوق على جميع أساليب خط الأساس.علاوة على ذلك، نقيم كيف يؤثر حجم كوربوس التدريب على جودة الملخصات التي تم إنشاؤها.نفرج عن Corpus والنماذج مع ترخيص مفتوح.
Automatic Text Summarization (ATS) is the task of generating concise and fluent summaries from one or more documents. In this paper, we present IceSum, the first Icelandic corpus annotated with human-generated summaries. IceSum consists of 1,000 online news articles and their extractive summaries. We train and evaluate several neural network-based models on this dataset, comparing them against a selection of baseline methods. We find that an encoder-decoder model with a sequence-to-sequence based extractor obtains the best results, outperforming all baseline methods. Furthermore, we evaluate how the size of the training corpus affects the quality of the generated summaries. We release the corpus and the models with an open license.
المراجع المستخدمة
https://aclanthology.org/
في الترجمة الآلية، يعد إعداد Corpus أحد المهام الحاسمة، خاصة لأزواج منخفضة.في بلدان متعددة اللغات مثل الهند، تلعب الترجمة الآلية دورا حيويا في التواصل بين الأشخاص الذين لديهم خلفيات لغوية مختلفة.تتوفر أنظمة الترجمة الآلية المتوفرة عبر الإنترنت من قبل
توفر منصات الوسائط الاجتماعية (SM) مثل Twitter كميات كبيرة من البيانات في الوقت الفعلي والتي يمكن الاستفادة منها أثناء حالات الطوارئ الجماعية. تتطلب تطوير أدوات لدعم المجتمعات المتأثرة بالأزمات مجموعات البيانات المتاحة، والتي غالبا ما تكون موجودة لغا
تهدف تلخيص النص الاستخراجي إلى استخراج الأحكام الأكثر تمثيلا من وثيقة معينة كملخص لها. لاستخراج ملخص جيد من وثيقة نصية طويلة، يلعب تضمين الجملة دورا مهما. تتمتع الدراسات الحديثة باختصار شبكات عصبية لالتقاط العلاقة بين العلاقة بين الأمريكيين (مثل الرس
نقوم بإنشاء كورب حوار واسعة النطاق يوفر الصيغة العمومية لتعزيز التكنولوجيا لفهم النوايا الأساسية للمستخدمين.في حين تكتسب نماذج المحادثة العصبية القدرة على توليد ردود بطلاقة من خلال التدريب على كوربس للحوار، ركزت شركة سورانيا السابقة بشكل رئيسي على ال
هذا اقتراح بحثي لأبحاث الدكتوراه في اكتشاف السخرية، والترجمة في الوقت الحقيقي لجور اللغة الإنجليزية من الكلمات الساخرة.تفاصيل البحث السابق في مواضيع مماثلة، اتجاهات البحث المحتملة والأهداف البحثية.