في الورقة، نتعامل مع مشكلة تجميع وثائق النص غير المدعومة باللغة البولندية.هدفنا هو مقارنة النهج الحديثة بناء على نمذجة اللغة (DOC2VEC و BERT) مع تلك الكلاسيكية، I.E.، TF-IDF و WordNet-تتم التجارب على ثلاث مجموعات بيانات تحتوي على أوصاف مؤهلات.أظهرت نتائج التجارب أن تدابير التشابه القائمة على WordNet يمكن أن تنافس وحتى التوفيق بين النهج القائمة على التضمين.