ترغب بنشر مسار تعليمي؟ اضغط هنا

بدأت أنظمة التلخيص المبخر مسبقا مدربة مسبقا في تحقيق أداء موثوق، ولكن عائق رئيسي أمام استخدامها في الممارسة العملية هو ميلهم لإخراج الملخصات التي لا تؤيد المدخلات وتحتوي على أخطاء واقعية. في حين تم استكشاف عدد من مجموعات البيانات المشروحة والنماذج ال إحصائية لتقييم التوظيف، إلا أنه لم يتم استكشاف صورة واضحة للأخطاء الأكثر أهمية لاستهداف أو عندما تنجح التقنيات الحالية والفشل. نستكشف كل من مصادر البيانات الاصطناعية والإنسانية ذات العلامات بين النماذج التدريبية لتحديد الأخطاء الواقعية في تلخيص، ودراسة الواقعية على مستوى الكلمة والاعتماد على مستوى الجملة. ملاحظاتنا هي ثلاثة أضعاف. أولا، تختلف الأخطاء الواقعية المعروضة بشكل كبير عبر مجموعات البيانات، والمجموعات التدريبية التي تستخدمها عادة من الأخطاء الاصطناعية البسيطة لا تعكس الأخطاء التي تم إجراؤها على مجموعات بيانات الجماعة مثل XSUM. ثانيا، توفر البيانات ذات العلامات البشرية ذات العلامات النووية ذات التوضيحية الدقيقة إشارة تدريب أكثر فعالية من التعليقات التوضيحية على مستوى الجملة أو البيانات الاصطناعية. أخيرا، نظير على أن أفضل نموذج الكشف عن الواقعين لدينا يتيح تدريب المزيد من نماذج تلخيص XSUM أكثر واقعية من خلال السماح لنا بتحديد الرموز المميزة غير الواقعية في بيانات التدريب.
وضع تطوير الشبكات العصبية وتقنيات الاحتياطية العديد من أنظمة وضع العلامات على مستوى الجملة التي حققت أداء فائقا على المعايير النموذجية. ومع ذلك، فإن موضوع أقل مناقشة نسبيا هو ما إذا كانت معلومات السياق مزيد من المعلومات في أنظمة علامات التسجيل الحالي ة الحالية. على الرغم من أن العديد من الأعمال الموجودة قد حاولت تحويل أنظمة وضع العلامات من مستوى الجملة إلى مستوى المستند، لا يوجد أي استنتاج بتوافق الآراء بشأن متى ولماذا يعمل، الذي يحد من تطبيق نهج السياق الأكبر في مهام وضع العلامات. في هذه الورقة، بدلا من متابعة نظام علامات حديثة من خلال الاستكشاف المعماري، نركز على التحقيق عندما ولماذا التدريب في السياق الأكبر، كاستراتيجية عامة، يمكن أن تعمل. تحقيقا لهذه الغاية، نقوم بإجراء دراسة مقارنة شاملة عن أربعة مجمعين مقترحين لجمع معلومات السياق وتقديم طريقة تقييم بمساعدة السمة لتفسير التحسن الذي يحدده التدريب السياق الأكبر. تجريفيا، أنشأنا اختبارا بناء على أربع مهام وضع العلامات ومجموعات البيانات الثلاثين. نأمل أن تكون ملاحظاتنا الأولية يمكن أن تعميق فهم التدريب السياق الأكبر والتنوير يعمل المزيد من المتابعة على استخدام المعلومات السياقية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا