في الورقة، نتعامل مع مشكلة تجميع وثائق النص غير المدعومة باللغة البولندية.هدفنا هو مقارنة النهج الحديثة بناء على نمذجة اللغة (DOC2VEC و BERT) مع تلك الكلاسيكية، I.E.، TF-IDF و WordNet-تتم التجارب على ثلاث مجموعات بيانات تحتوي على أوصاف مؤهلات.أظهرت نتائج التجارب أن تدابير التشابه القائمة على WordNet يمكن أن تنافس وحتى التوفيق بين النهج القائمة على التضمين.
In the paper, we deal with the problem of unsupervised text document clustering for the Polish language. Our goal is to compare the modern approaches based on language modeling (doc2vec and BERT) with the classical ones, i.e., TF-IDF and wordnet-based. The experiments are conducted on three datasets containing qualification descriptions. The experiments' results showed that wordnet-based similarity measures could compete and even outperform modern embedding-based approaches.
المراجع المستخدمة
https://aclanthology.org/
استخراج الكلمات الرئيسية هي مهمة تحديد الكلمات (أو تعبيرات متعددة الكلمة) التي تصف أفضل وثيقة معينة وخدمة في بوابات الأخبار لربط مقالات من مواضيع مماثلة. في هذا العمل، نطور وتقييم أساليبنا على أربع مجموعات بيانات جديدة تغطي لغات أقل ممثلة تمثيلا، لغا
نماذج اللغة العصبية، بما في ذلك النماذج القائمة على المحولات، والتي تدرب مسبقا على كوربورا كبيرة جدا أصبحت وسيلة شائعة لتمثيل النص في مهام مختلفة، بما في ذلك الاعتراف بالعلاقات الدلالية النصية، على سبيل المثال نظرية هيكل الوثائق عبر المستندات. عادة م
تعرض هذه الورقة أنظمة مختلفة لمجموعة مختلفة من النماذج المورفولوجية، في سياق المهمة المشتركة Sigmorphon 2021 2. الهدف من هذه المهمة هو تصحيح الكلمات العنقودية بشكل صحيح بلغة معينة من قبل نموذج اندلاطها، دون أي معرفة سابقة باللغة وبدون إشراف من البيان
نقدم Query2Prod2VEC، وهو نموذج يسبب تمثيلات معجمية للبحث عن المنتج في تضمين المنتج: في نموذجنا، يعني المعنى رسم خرائط بين الكلمات والمساحة الكامنة من المنتجات في متجر رقمي.نستفيد من جلسات التسوق لتعلم المساحة الأساسية واستخدام التعليقات التوضيحية للت
كلمة تضمين خرائط الكلمات إلى ناقلات الأرقام الحقيقية.وهي مشتقة من كوربوس كبيرة ومن المعروف أنها تلتقط المعرفة الدلالية من الجثة.يعد Word Embedding مكونا حاسما للعديد من أساليب التعلم العميق الحديثة.ومع ذلك، فإن إنشاء Word Good Legeddings هو تحدي خاص