تعتبر خلط التعليمات البرمجية ظاهرة خلط الكلمات والعبارات من لغتين أو أكثر في كلام واحد من الكلام والنص.نظرا للتنوع اللغوي العالي، يعرض خلط التعليمات البرمجية العديد من التحديات في تقييم مهام توليد اللغة الطبيعية القياسية (NLG).تعمل العديد من المقاييس الشعبية على نطاق واسع بشكل سيء بمهام NLG المختلطة من التعليمات البرمجية.لمعالجة هذا التحدي، نقدم حصة خط أنابيب التقييم المعتمدة بشكل كبير يحسن ارتباطا كبيرا بين مقاييس التقييم والأحكام البشرية على النص المزج العام الذي تم إنشاؤه.كحالة للاستخدام، نوضح أداء الفحص على جمل Hinglish التي تم إنشاؤها بواسطة الماكينات (خلط الكود باللغات الهندية والإنجليزية) من The Hinge Corpus.يمكننا تمديد استراتيجية التقييم المقترحة إلى أزواج لغة مختلطة من التعليمات البرمجية، ومهام NLG، ومقاييس التقييم مع الحد الأدنى من أي جهد.