تستكشف هذه الورقة ثلاثة تقنيات معالجة البيانات البسيطة (التوليف، التعزيز، المناهج الدراسية) لتحسين نماذج تلخيص الجماعة دون الحاجة إلى أي بيانات إضافية.نقدم طريقة تخليق البيانات مع إعادة الصياغة، وهي تقنية تكبير البيانات مع خلط العينات، وتعلم المناهج الدراسية مع اثنين من مقاييس صعوبة جديدة بناء على الخصوصية والتغاضي.نقوم بإجراء تجارب لإظهار أن هذه التقنيات الثلاث يمكن أن تساعد في تحسين تلخيص الجماعي عبر نماذج تلخيص واثنين من مجموعات بيانات صغيرة مختلفة.علاوة على ذلك، نعرض أن هذه التقنيات يمكن أن تحسن الأداء عند تطبيقها بمعزل وعند دمجها.
This paper explores three simple data manipulation techniques (synthesis, augmentation, curriculum) for improving abstractive summarization models without the need for any additional data. We introduce a method of data synthesis with paraphrasing, a data augmentation technique with sample mixing, and curriculum learning with two new difficulty metrics based on specificity and abstractiveness. We conduct experiments to show that these three techniques can help improve abstractive summarization across two summarization models and two different small datasets. Furthermore, we show that these techniques can improve performance when applied in isolation and when combined.
المراجع المستخدمة
https://aclanthology.org/
يحقق النماذج المحددة ذات الأهداف الإشراف ذاتية الإشراف على النصوص الكبيرة على تحقيق أداء حديثة على مهام تلخيص النص الإنجليزية. ومع ذلك، فإن هذه النماذج عادة ما يتم ضبطها على مئات الآلاف من نقاط البيانات، ومتطلبات غير قابلة للتنفيذ عند تطبيق تلخيص لمج
تلقت تلخيص محادثة مبادرة إيلاء اهتمام متزايد في حين تعتمد معظم نماذج تلخيص حديثة حديثة من بين الفنون بشدة على ملخصات المشروح بين الإنسان. للحد من الاعتماد على الملخصات المسمى، في هذا العمل، نقدم مجموعة بسيطة ولكنها فعالة من طرق تكبير بيانات المحادثة
تعرض المحاضرة شرح عن علم البيانات وعلاقته بعلم الإحصاء والتعلم الآلي وحالتين دراسيتين عن دور عالم البيانات في تصميم حلول تعتمد على استخراج المعرفة من حجم كبير من البيانات المتوفرة, كما يتم عرض أهم المهام في المؤتمرات العلمية التي يمكن المشاركة بها لطلاب المعلوماتية المهتمين بهذا المجال
تعظيم البيانات غير المزعجة (UDA) هي تقنية شبه بيئية تنطبق على فقدان الاتساق لمعاقبة الاختلافات بين تنبؤات النماذج على (أ) أمثلة ملحوظة (غير مسفحة)؛ و (ب) الأمثلة الواضحة المقابلة التي تم إنتاجها عبر تكبير البيانات. في حين أن UDA اكتسبت شعبية لتصنيف ا
يلعب الكشف التلقائي باللغة السامة دورا أساسيا في حماية مستخدمي الوسائط الاجتماعية، وخاصة مجموعات الأقليات، من الإساءة اللفظية.ومع ذلك، فإن التحيزات تجاه بعض الصفات، بما في ذلك النوع الاجتماعي والعرق واللهجة، موجودة في معظم مجموعات البيانات التدريبية