غالبا ما تستخدم Lemmatization من اللغات الغنية المورفولوجية لمعالجة القضايا الناجمة عن التعقيد المورفولوجي، التي أجريتها Lemmatizers القائم على القواعد.نقترح بديلا لهذا، في شكل أداة تقوم بتنفيذ Lemmatization في مساحة Word Embeddings.تضيء كلمة كتمثيل موزز أصلي بعض المعلومات حول العلاقة بين الأساس والنماذج المؤذية، وإظهار أنه من الممكن تعلم التحول الذي يوصي ما يقرب من تضييق أشرطة النماذج التي تم تأصيلها إلى Admass of the المقابلة.يؤدي هذا إلى تسهيل خط أنابيب معالجة بديل يحل محل الليمات التقليدية مع التحول الليمون في معالجة المصب لأي تطبيق.نوضح الطريقة في اللغة الفنلندية، مما يتفوق على Lemmatizers التقليدية على سبيل المثال مهمة مقارنة تشابه الوثيقة، ولكن النهج مستقلة للغة ويمكن تدريب لغات جديدة مع متطلبات خفيفة.
Lemmatization is often used with morphologically rich languages to address issues caused by morphological complexity, performed by grammar-based lemmatizers. We propose an alternative for this, in form of a tool that performs lemmatization in the space of word embeddings. Word embeddings as distributed representations natively encode some information about the relationship between base and inflected forms, and we show that it is possible to learn a transformation that approximately maps the embeddings of inflected forms to the embeddings of the corresponding lemmas. This facilitates an alternative processing pipeline that replaces traditional lemmatization with the lemmatizing transformation in downstream processing for any application. We demonstrate the method in the Finnish language, outperforming traditional lemmatizers in example task of document similarity comparison, but the approach is language independent and can be trained for new languages with mild requirements.
المراجع المستخدمة
https://aclanthology.org/
مجردة أن هذه الدراسة تنفذ تقييم جوهري منهجي للتمثيل الدلالي الذي تعلمته المحولات متعددة الوسائط المدربة مسبقا. يزعم هذه التمثيلات أنها غير ملائمة للمهمة وأظهرت للمساعدة في العديد من مهام اللغة والرؤية المصب. ومع ذلك، فإن المدى الذي يتماشى فيه مع الحد
نقدم نهجا جديدا لتجانس وتحسين جودة Adgeddings Word.نحن نعتبر طريقة لتدبير تضمين كلمة تم تدريبها على نفس الكملات ولكن مع تهيئة مختلفة.نقوم بتعريف جميع النماذج إلى مساحة متجهية مشتركة باستخدام تطبيق فعال لإجراءات تحليل Scristes (GPA) المعمم (GPA)، تستخ
تقدم هذه الورقة نهجا جديدا للتعلم بزيادة المعنى بصريا تمثيل الكلمات باعتبارها تضمين عقدة منخفضة الأبعاد في التسلسل الهرمي في الرسم البياني الأساسي.المستوى الأدنى من عروض الكلمات التسلسل الهرمية الخاصة بالكلمة، مشروط إلى طريقة أخرى، من خلال الرسوم الب
تجد النماذج الموجودة الإشراف على النصوص النصية صعوبة في تحسين نتائج تجميعها مباشرة.وذلك لأن التجميع عملية منفصلة، ومن الصعب تقدير التدرج المجدي لأي وظيفة منفصلة يمكن أن تدفع خوارزميات التحسين المستندة إلى التدرج.لذا، فإن خوارزميات التجميع الموجودة مح
كيف يفهم الناس معنى كلمة صغيرة "عند استخدامها لوصف البعوض أو الكنيسة أو كوكب؟في حين أن البشر لديهم قدرة رائعة على تشكيل معاني من خلال الجمع بين المفاهيم القائمة، فإن نمذجة هذه العملية تحديا.تتناول هذه الورقة هذا التحدي من خلال Cerebra (تمثيلات المعنى