على الرغم من أن العديد من الدراسات تستخدم معجم Liwc لإظهار وجود إشارات تسرب لفظية في مجموعات بيانات الكشف، لا شيء ما ذكر كيف تتأثر إشارات التسرب اللفظي بوسائل جمع البيانات، أو تأثيرها على أداء النماذج. في هذه الورقة، ندرس إشارات التسرب اللفظي لفهم تأثير طريقة بناء البيانات على أهميتها، وفحص العلاقة بين صلاحية هذه العظة وصحة النماذج. يتم استخدام عشرات هيمنة فئة Word-فئة Liwc من سبع مجموعات بيانات الكشف عن الكذب لإظهار أن البيانات الصوتية والشروح القائمة على الكذب تشير إلى عدد أكبر من فئات التسرب اللفظي القوي. علاوة على ذلك، نقوم بتقييم صحة نماذج الكشف عن حديثة الكذب مع الاختبار عبر مجموعة البيانات. تظهر النتائج أنه في كلا النوعين من الاختبار، تدرب النماذج على مجموعة بيانات مع فئات جديلة تسرب شفهية أكثر قوة - - على عكس عدد أكبر من الإشارات القوية --- تسفر عن نتائج فائقة، مما يشير إلى أن العظة التسرب اللفظي هي عامل رئيسي لاختيار مجموعات بيانات الكشف عن الكذب.