تؤكد الدراسات الحديثة على حاجة إلى سياق وثائق في التقييم البشري لترجمات الماكينة، لكن القليل من الأبحاث قد تم في تأثير واجهات المستخدم على الإنتاجية العنصرية وموثوقية التقييمات.في هذا العمل، نقوم بمقارنة بيانات التقييم البشري من أحدث حملتين تقييمين من WMT التي تم جمعها عبر طريقتين مختلفتين لتقييم مستوى المستندات.يوضح تحليلنا أن اتباع نهج تركز على المستندات في التقييم حيث يتم عرض العنصي مع سياق المستند بأكمله على الشاشة يؤدي إلى تقييمات أعلى جودة ومستوى المستندات.إنه يحسن الارتباط بين القطاع وعشرات المستندات ويزيد من اتفاقية المشتركة بين النقاط عن درجات الوثائق ولكنها أكثر بكثير من الوقت المستهلكة للمعجبين.