شركات وسائل التواصل الاجتماعي وكذلك سلطات الرقابة تجعل الاستخدام المكثف للأدوات الذكاء الاصطناعي (AI) لمراقبة منشورات خطاب الكراهية أو الاحتفالات بالعنف أو الألفاظ النابية. نظرا لأن برنامج AI يتطلب كميات كبيرة من البيانات لتدريب أجهزة الكمبيوتر، يتم تنفيذ الترجمة التلقائية للمحتوى عبر الإنترنت عادة للتعويض عن ندرة النص في بعض اللغات. ومع ذلك، فإن أخطاء الترجمة الآلية (MT) هي حدوث منتظم عند ترجمة المحتوى الذي تم إنشاؤه الموجه نحو المستخدم (UGC)، خاصة عند مشاركة لغة الموارد المنخفضة. في مثل هذه السيناريوهات، تعتمد كفاية العملية برمتها على افتراض أن الترجمة يمكن تقييمها بشكل صحيح. في هذه الورقة، نقوم بتقييم قدرة مقاييس الجودة التلقائية على اكتشاف أخطاء ترجمة الآلات الحرجة التي يمكن أن تسبب سوء فهم خطير في رسالة التأثير. نقارن أداء ثلاثة مقاييس قانوني على الترجمات التي لا معنى لها بالمقارنة مع الترجمات ذات مغزى مع وجود خطأ حاسم يشوه المعنويات الإجمالية للنص المصدر. نوضح الحاجة إلى ضبط القيود التلقائي لجعلها أكثر قوة في اكتشاف أخطاء المعنويات الحرجة.