تقدم هذه الورقة طريقة تلخيص عالمية لتعليقات الرياضة الحية التي لدينا ملخص مكتوب بشري متاح.تستند هذه الطريقة إلى ملخص مولد عصبي.يتم تقييد كمية البيانات المتاحة للتدريب مقارنة بالشريعة المستخدمة عادة من قبل الملخصات العصبية.نقترح لمساعدة الملخص على التعلم من كمية محدودة من البيانات عن طريق الحد من انتروبيا من نصوص الإدخال.يتم تنفيذ هذه الخطوة من خلال تصنيف إلى فئات مستمدة من تحليل مفصل للملخصات التي كتبها الإنسان.نظهر أن الترشيح يساعد نظام التلخيص للتغلب على نقص الموارد.ومع ذلك، ظهرت عدة نقاط تحسين من هذه الدراسة الأولية، والتي نناقشها وتخطط لتنفيذها في العمل في المستقبل.
This paper presents a global summarization method for live sport commentaries for which we have a human-written summary available. This method is based on a neural generative summarizer. The amount of data available for training is limited compared to corpora commonly used by neural summarizers. We propose to help the summarizer to learn from a limited amount of data by limiting the entropy of the input texts. This step is performed by a classification into categories derived by a detailed analysis of the human-written summaries. We show that the filtering helps the summarization system to overcome the lack of resources. However, several improving points have emerged from this preliminary study, that we discuss and plan to implement in future work.
المراجع المستخدمة
https://aclanthology.org/
يشير العمل السابق إلى أن معلومات خطاب المعلومات المتعلقة بالتلخيص.في هذه الورقة، نستكشف ما إذا كان هذا التآزر بين الخطاب والتلخيص ثنائي الاتجاه، من خلال استنتاج أشجار الخطاب على مستوى المستند من الملخصات العصبية المدربة مسبقا.على وجه الخصوص، نولد أشج
مقاييس التقييم التلقائية المستندة إلى المرجعية محدودة بشكل ملحوظ ل NLG بسبب عدم قدرتها على التقاط مجموعة كاملة من النواتج المحتملة.نحن ندرس بديلا للإشارة: تقييم كفاية الرسوم البيانية من جمل اللغة الإنجليزية التي تم إنشاؤها من الرسوم البيانية التمثيل
الأساليب الحديثة لتحليل الدوائر الانتخابية هي مناهج إشراف أحادية اللغات التي تتطلب كمية كبيرة من البيانات المسمى التي سيتم تدريبها على، مما يحد من فائدتها إلى حفنة فقط من لغات الموارد العالية فقط. لمعالجة هذه المسألة في هذه المسألة لغات الموارد المنخ
في الترجمة الآلية المتزامنة، والعثور على وكيل مع تسلسل العمل الأمثل للقراءة والكتابة التي تحتفظ بمستوى عال من جودة الترجمة مع التقليل من التأخر المتوسط في إنتاج الرموز المستهدفة لا يزال مشكلة صعبة للغاية. نقترح نهج تعليمي تحت إشراف رواية لتدريب وكي
يسمح دفتر Jupyter لعلماء البيانات كتابة رمز تعلم الآلة مع وثائقها في الخلايا.في هذه الورقة، نقترح مهمة جديدة من توليد وثائق التعليمات البرمجية (CDG) لأجهزة الكمبيوتر المحمولة الحسابية.على النقيض من مهام CDG السابقة التي تركز على توليد وثائق لفظات شفر