في هذا العمل، نقدم طريقة لاختيار المحتوى وتخطيط المستندات للأخبار الآلية وتوليد التقارير من البيانات الإحصائية المهيكلة مثل تلك التي تقدمها الوكالة الإحصائية للاتحاد الأوروبي، يوروستات.هذه الطريقة مدفوعة بالبيانات وهي موضوع كبير مستقلة داخل مجال مجموعة البيانات الإحصائية.نظرا لأن نهجنا لا يعتمد على التعلم الآلي، فهو مناسب لإدخال أتمتة الأخبار إلى مجموعة واسعة من المجالات حيث لا توجد بيانات تدريبية متاحة.على هذا النحو، فإنه مناسب كتكلفة منخفضة (من حيث جهود التنفيذ) خط الأساس له هيكلة المستند قبل إدخال المعرفة الخاصة بالمجال.
In this work, we present a method for content selection and document planning for automated news and report generation from structured statistical data such as that offered by the European Union's statistical agency, EuroStat. The method is driven by the data and is highly topic-independent within the statistical dataset domain. As our approach is not based on machine learning, it is suitable for introducing news automation to the wide variety of domains where no training data is available. As such, it is suitable as a low-cost (in terms of implementation effort) baseline for document structuring prior to introduction of domain-specific knowledge.
المراجع المستخدمة
https://aclanthology.org/
في هذا العمل، نصف جهودنا في تحسين مجموعة متنوعة من اللغات الناتجة عن نظام NLG القائم على القواعد للصحافة الآلية.نقدم اقترابين: واحد استنادا إلى إدراج كلمات جديدة تماما في جمل تم إنشاؤها من القوالب، وآخر بناء على استبدال الكلمات بالمرادفات.تشير نتائجن
من المعروف أن طريقة المزيج (تشانغ وآخرون، 2017)، واحدة من أساليب تكبير البيانات، من المعروف أنها سهلة التنفيذ والفعالة للغاية. على الرغم من أن طريقة المزيج مخصصة لتحديد الصور، إلا أنه يمكن تطبيقه أيضا على معالجة اللغة الطبيعية. في هذه الورقة، نحاول ت
تبسيط النص هو تقنية قيمة.ومع ذلك، يقتصر البحث الحالي على تبسيط الجملة.في هذه الورقة، نحدد والتحقيق في مهمة جديدة من تبسيط نص المستندات على مستوى المستند، والتي تهدف إلى تبسيط وثيقة تتكون من جمل متعددة.بناء على مقالب ويكيبيديا، نقوم أولا ببناء مجموعة
هناك فرق حاسم بين تلخيص المستندات الفردية والمتعددة هو كيف يتجلى المحتوى البارز نفسه في المستند (المستندات). على الرغم من أن هذا المحتوى قد يظهر في بداية وثيقة واحدة، إلا أن المعلومات الأساسية تكرر بشكل متكرر في مجموعة من المستندات المتعلقة بموضوع مع
يوروفوك هو عبارات متعددة اللغات تم بناؤها لتنظيم الوثائقي التشريعي لمؤسسات الاتحاد الأوروبي.يحتوي على الآلاف من الفئات في مستويات مختلفة من الخصوصية وتستهدف واصفاتها من قبل النصوص القانونية في ثلاثين لغة تقريبا.في هذا العمل، نقترح إطارا موحدا لتصنيف