تعرض هذه الورقة أنظمة مختلفة لمجموعة مختلفة من النماذج المورفولوجية، في سياق المهمة المشتركة Sigmorphon 2021 2. الهدف من هذه المهمة هو تصحيح الكلمات العنقودية بشكل صحيح بلغة معينة من قبل نموذج اندلاطها، دون أي معرفة سابقة باللغة وبدون إشراف من البيانات المسمى لأي فرز. تعد الكلمات الموجودة في النموذج المورفولوجي الواحد بمتغيرات انتشار مختلفة من ليمما الأساسي، مما يعني أن الكلمات تشترك في معنى أساسي مشترك. كما أنها - عادة - تظهر درجة عالية من التشابه الجبادي. بعد حدس هذه الحدس، نحقق في تجميع كماينز باستخدام نوعين مختلفين من تمثيلات الكلمات: يركز المرء على التشابه الجبائي والتركيز الآخر على التشابه الدلالي. يتم تحديد الأدوار الوسطى المحددة مسبقا بناء على وجود خوارزمية فرعية مشتركة عادية أو طريقة رسم بيانية متصلة مبنية بأطول فرعية شائعة. بالنسبة لجميع لغات التطوير، فإن المدينات القائمة على الطابع تؤدي بالمثل إلى خط الأساس، وتشير المبدأ الدوالي أداء أقل بكثير من خط الأساس إلى أن أخطاء النظم تشير إلى أن التجميع القائم على تمثيلات إلكترونية مناسبة لمجموعة واسعة من الآليات المورفولوجية، لا سيما كجزء من نظام أكبر.
This paper presents two different systems for unsupervised clustering of morphological paradigms, in the context of the SIGMORPHON 2021 Shared Task 2. The goal of this task is to correctly cluster words in a given language by their inflectional paradigm, without any previous knowledge of the language and without supervision from labeled data of any sort. The words in a single morphological paradigm are different inflectional variants of an underlying lemma, meaning that the words share a common core meaning. They also - usually - show a high degree of orthographical similarity. Following these intuitions, we investigate KMeans clustering using two different types of word representations: one focusing on orthographical similarity and the other focusing on semantic similarity.Additionally, we discuss the merits of randomly initialized centroids versus pre-defined centroids for clustering. Pre-defined centroids are identified based on either a standard longest common substring algorithm or a connected graph method built off of longest common substring. For all development languages, the character-based embeddings perform similarly to the baseline, and the semantic embeddings perform well below the baseline.Analysis of the systems' errors suggests that clustering based on orthographic representations is suitable for a wide range of morphological mechanisms, particularly as part of a larger system.
المراجع المستخدمة
https://aclanthology.org/
تصف هذه الورقة تقديم فريق CU-UBC لمهمة SIGMORPHON 2021 المشتركة 2: تجميع النماذج المورفولوجية غير المنصوص عليها.يولد نظامنا النماذج باستخدام قواعد التحول المورفولوجية التي يتم اكتشافها من البيانات الأولية.نقوم بتجربة طريقتين لاكتشاف القواعد.نهجنا الأ
يصف هذا العمل تقديم Edinburgh إلى المهمة Sigmorphon 2021 المشتركة 2 على تجميع النموذج المورفولوجي غير المقترح.إعطاء إدخال النص الخام، وكانت المهمة لتعيين كل رمز رمزية إلى كتلة مع الرموز الأخرى من نفس النموذج.نحن نستخدم تجزئة محول القواعد جنبا إلى جنب
نحن تصف مهمة Sigmorphon الثانية على التورفولوجيا غير المدعومة: الهدف من المهمة المشتركة SIGMORPHON 2021 على تجميع النماذج المورفولوجية غير المزدئة غير المنشأة هو أنواع الكلمات العنقودية من كوربوس نص الخام إلى النماذج.تحقيقا لهذه الغاية، نطلق سرورا لم
في الورقة، نتعامل مع مشكلة تجميع وثائق النص غير المدعومة باللغة البولندية.هدفنا هو مقارنة النهج الحديثة بناء على نمذجة اللغة (DOC2VEC و BERT) مع تلك الكلاسيكية، I.E.، TF-IDF و WordNet-تتم التجارب على ثلاث مجموعات بيانات تحتوي على أوصاف مؤهلات.أظهرت ن
يعد تدريب الاتساق غير الخاضع للتناسق طريقة للتعلم شبه الإشرافه يشجع الاتساق في التنبؤات النموذجية بين البيانات الأصلية والمعزز.للحصول على التعرف على الكيان المسمى (NER)، زيادة النهج الحالية تسلسل الإدخال مع استبدال الرمز المميز، بافتراض التعليقات الت