وجدت خوارزميات التدرج السياسي اعتماد واسع في NLP، لكنها أصبحت مؤخرا عرضة للنقد، مما يشك في ملاءمتها ل NMT.تشوشين وآخرون.(2020) حدد نقاط ضعف متعددة والشك في تحديد نجاحهم من خلال شكل توزيعات الإخراج بدلا من المكافأة.في هذه الورقة، نلتأكيد هذه المطالبات ودراسةها تحت مجموعة أوسع من التكوينات.تكشف تجاربنا على التكيف في المجال والمجال عبر المجال أهمية الاستكشاف والمكافآت، وتوفير الأدلة المضادة التجريبية لهذه المطالبات.