تقترح هذه الورقة تنفيذ الكلمات الخمسة لغات جنوب إفريقيا، وهي SEPEDI و SETSWANA و TSHIVENDA و ISZULU و ISIXHOSA لإضافتها لفتح Wordnets متعدد اللغات (OMW) على مجموعة أدوات اللغة الطبيعية (NLTK).يتم تحويل Wordnets الأفريقي من Princeton Wordnet (PWN) 2.0 إلى 3.0 لتتناسب مع Synsets في PWN 3.0.بعد التحويل، كان هناك 7157 و 11972 و 1288 و 6380 و 9460 Lemmas لسيبيدي و Setswana و Tshivenda و Isizulu و ISIX- Hosa على التوالي.Setswana، ISIXHOSA، SEPEDI يحتوي على المزيد من الليمان مقارنة ب 8 لغات في OMW و ISZULU يحتوي على المزيد من الليمون مقارنة ب 7 لغات في OMW.تم نشر مكتبة للتطوير المستمر للملفات الأفريقية في OMW باستخدام NLTK.
This paper proposes the implementation of WordNets for five South African languages, namely, Sepedi, Setswana, Tshivenda, isiZulu and isiXhosa to be added to open multilingual WordNets (OMW) on natural language toolkit (NLTK). The African WordNets are converted from Princeton WordNet (PWN) 2.0 to 3.0 to match the synsets in PWN 3.0. After conversion, there were 7157, 11972, 1288, 6380, and 9460 lemmas for Sepedi, Setswana, Tshivenda, isiZulu and isiX- hosa respectively. Setswana, isiXhosa, Sepedi contains more lemmas compared to 8 languages in OMW and isiZulu contains more lemmas compared to 7 languages in OMW. A library has been published for continuous development of African WordNets in OMW using NLTK.
المراجع المستخدمة
https://aclanthology.org/
تقدم هذه الورقة العمل قيد التقدم نحو إنشاء أسرة من الكلمات من أجل Sanskrit واليونانية القديمة واللاتينية.بناء على المحاولات السابقة في هذا المجال، نقوم بوضع هذه الجهود التي تقوم بتجمعها من دلالات الصفحات العلنية WordNet مع نظريات المعنى من اللغويات ا
تصف هذه الورقة منهجية لنقل المعرفة النحوية بين لغات الموارد عالية الموارد إلى لغات الموارد المنخفضة للغاية. تتألف المنهجية في الاستفادة من نموذج الانتباه الذاتي متعدد اللغات المحدد في مجموعات البيانات الكبيرة لتطوير نموذج متعدد اللغات متعدد اللغات يم
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم
يمكن أن تلعب الموارد الحسابية مثل سورانيا المشروح الدولى دورا مهما في تمكين المتحدثين لغات الأقليات الأصلية للمشاركة في الحكومة والتعليم ومجالات الحياة العامة في لغتهم العامة.ومع ذلك، فإن العديد من اللغات - بشكل رئيسي أولئك الذين لديهم سكان متكلمون أ
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات