كان التقييم البشري على مستوى المستند للترجمة الآلية (MT) يثير اهتماما بالمجتمع.ومع ذلك، يعرف القليل عن قضايا استخدام منهجيات مستوى المستند لتقييم جودة MT.في هذه المقالة، نقارن نتائج اتفاقية Insent-Annotator (IAA)، والجهد لتقييم الجودة في منهجيات مختلفة على مستوى المستندات، وقضية رسالة التسليم عند تقييم الأحكام خارج السياق.