في السنوات الأخيرة، اكتسبت الترجمة التلقائية للكلام في الكلام والكلام إلى النص زخما بفضل التقدم في الذكاء الاصطناعي، وخاصة في مجالات التعرف على الكلام والترجمة الآلية. يتم اختبار جودة هذه التطبيقات بشكل شائع مع المقاييس التلقائية، مثل بلو، في المقام الأول بهدف تقييم التحسينات في الإصدارات أو في سياق حملات التقييم. ومع ذلك، يعرف القليل عن كيفية إدراك إخراج هذه الأنظمة من قبل المستخدمين النهائيين أو كيف تقارن بين العروض البشرية في مهام تواصل مماثلة. في هذه الورقة، نقدم نتائج تجربة تهدف إلى تقييم جودة محرك ترجمة الكلام في الوقت الفعلي من خلال مقارنته بأداء المترجمين الفوريين المهنيين المهنيين. للقيام بذلك، نعتمد إطارا تم تطويره لتقييم المترجمين الفوريين البشري واستخدامه لإجراء تقييم يدوي على كل من العروض البشرية والآلة. في عيناتنا، وجدنا أداء أفضل للمترجمين الفوريين البشري من حيث الوضوح، في حين أن الجهاز ينفذ بشكل أفضل قليلا من حيث المعلوماتية. وتناقش قيود الدراسة والتحسينات المحتملة للإطار المختار. على الرغم من قيودها الجوهرية، فإن استخدام هذا الإطار يمثل خطوة أولى نحو منهجية ذات سن المراهقة على المستخدمين ومنهجية موجهة نحو الاتصال لتقييم ترجمة الكلام التلقائي في الوقت الفعلي.