Rewardsofsum: استكشاف مكافآت التعزيز التعزيز للحصول على التوصيل


الملخص بالعربية

حتى الآن، اعتمدت معظم نماذج التلخيص المذهلة على متغيرات من احتمال السجل السلبي (NLL) كهدف تدريبهم. في بعض الحالات، تمت إضافة التعلم التعزيز لتدريب النماذج بهدف أقرب إلى تدابير التقييم الخاصة بهم (مثل Rouge). ومع ذلك، فإن وظيفة المكافآت التي سيتم استخدامها في نهج التعلم التعزيز يمكن أن تلعب دورا رئيسيا للأداء ولا يزال غير مستكشفة جزئيا. لهذا السبب، في هذه الورقة، نقترح اثنين من وظائف المكافأة لمهمة التلخيص الجماعي: الوظيفة الأولى، المشار إليها باسم RWB-Hinge، يختار ديناميكيا العينات لتحديث التدرج. الوظيفة الثانية، الملقب بالمخاطر، يرفع مجموعة صغيرة من المرشحين القويين لإبلاغ المكافأة. في التجارب، نجري النهج المقترح من خلال ضبط النموذج المدرب مسبقا من NLL أكثر من تسع مجموعات بيانات ملخصة من الحجم والطبيعة المتنوعة. تظهر النتائج التجريبية تحسنا ثابتا على خطوط خطوط الأساسيات المحدودة السلبية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث