من الصعب تقييم نماذج اللغة.ونحن نفرج عن Supersim، ومجموعة تشابه ورابطات متعلقة على نطاق واسع في السويدية التي بنيت أحكاما بشرية خبراء.يتكون مجموعة الاختبار من 1،360 كلمة أزواج يحكمها بشكل مستقل لكل من الرصيد والتشابه بمقدار خمسة Annotators.نقوم بتقييم ثلاث نماذج مختلفة (Word2VEC، FastText، والقفازات) المدربين على مجموعة بيانات سويدية منفصلة، وهي كوربوس Gigaword السويدية وتفريغ ويكيبيديا السويدية، لتوفير خط أساس للمقارنة في المستقبل.سنقوم بتصدر مجموعة الاختبارات المشروحة بالكامل والنماذج والنماذج والبيانات.