ترغب بنشر مسار تعليمي؟ اضغط هنا

النهج العملي بشأن تنفيذ الكلمات لغات جنوب إفريقيا

Practical Approach on Implementation of WordNets for South African Languages

229   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقترح هذه الورقة تنفيذ الكلمات الخمسة لغات جنوب إفريقيا، وهي SEPEDI و SETSWANA و TSHIVENDA و ISZULU و ISIXHOSA لإضافتها لفتح Wordnets متعدد اللغات (OMW) على مجموعة أدوات اللغة الطبيعية (NLTK).يتم تحويل Wordnets الأفريقي من Princeton Wordnet (PWN) 2.0 إلى 3.0 لتتناسب مع Synsets في PWN 3.0.بعد التحويل، كان هناك 7157 و 11972 و 1288 و 6380 و 9460 Lemmas لسيبيدي و Setswana و Tshivenda و Isizulu و ISIX- Hosa على التوالي.Setswana، ISIXHOSA، SEPEDI يحتوي على المزيد من الليمان مقارنة ب 8 لغات في OMW و ISZULU يحتوي على المزيد من الليمون مقارنة ب 7 لغات في OMW.تم نشر مكتبة للتطوير المستمر للملفات الأفريقية في OMW باستخدام NLTK.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم هذه الورقة العمل قيد التقدم نحو إنشاء أسرة من الكلمات من أجل Sanskrit واليونانية القديمة واللاتينية.بناء على المحاولات السابقة في هذا المجال، نقوم بوضع هذه الجهود التي تقوم بتجمعها من دلالات الصفحات العلنية WordNet مع نظريات المعنى من اللغويات ا لمعرفية.نناقش بعض الابتكارات التي أدخلناها إلى هندسة Wordnet، لتحقيق أفضل لالتقاط polysemy من الكلمات، وكذلك الميزات الخاصة باللغة الهندية الأوروبية.نستنتج الورقة تأطير عملنا داخل الصورة الأكبر للموارد المتاحة للغات القديمة وإظهار أن أدوات البحث المدعومة من Wordnet - لديها القدرة على إعادة تحديد أنواع الأسئلة التي يمكن أن يطلب من لغة اللغة القديمة.
تصف هذه الورقة منهجية لنقل المعرفة النحوية بين لغات الموارد عالية الموارد إلى لغات الموارد المنخفضة للغاية. تتألف المنهجية في الاستفادة من نموذج الانتباه الذاتي متعدد اللغات المحدد في مجموعات البيانات الكبيرة لتطوير نموذج متعدد اللغات متعدد اللغات يم كن أن يتوقع التشريحات التبعية الشاملة لثلاثة لغات موارد منخفضة الأفريقية. تشمل التعليقات التوضيحية UD جزءا عالميا من الكلام والميزات المورفولوجية وميمرات وأشجار الاعتماد. في تجاربنا، استخدمنا تضييق كلمة متعددة اللغات وما مجموعه 11 تبعا عالميا Treebanks تم استخلاصها من ثلاثة لغات موارد عالية (الإنجليزية والفرنسية والنرويجية) وثلاثة لغات موارد منخفضة (Bambara و Wolof و Yoruba). قمنا بتطوير نماذج مختلفة لاختبار مجموعات لغة محددة تنطوي على لغات مراقبة معاصرة أو لغات ذات صلة وراثيا. تبين نتائج التجارب أن النماذج متعددة اللغات التي تنطوي على لغات عالية الموارد ولغات منخفضة الموارد مع الاتصال المعاصر بين بعضها البعض يمكن أن توفر نتائج أفضل من المجموعات التي تشمل فقط اللغات التي لا علاقة لها. فيما يتعلق بالعلاقات الوراثية البعيدة، لم نتمكن من استخلاص أي استنتاج بشأن تأثير مجموعات اللغة التي تنطوي على لغات الموارد المنخفضة المختارة، وهي Wolof و Yoruba.
من الصعب للغاية ترجمة لغات Dravidian، مثل Kannada و Tamil، على ترجمة النماذج العصبية الحديثة.ينبع هذا من حقيقة أن هذه اللغات غنية بالمثل للغاية بالإضافة إلى توفير الموارد منخفضة الموارد.في هذه الورقة، نركز على تجزئة الكلمات الفرعية وتقييم الحد من الم فردات الدوافع اللغوية (LMVR) مقابل الجملة الأكثر استخداما (SP) لمهمة الترجمة من اللغة الإنجليزية إلى أربعة لغات Dravidian مختلفة.بالإضافة إلى ذلك، نحقق في حجم المفردات الفرعية المثلى لكل لغة.نجد أن SP هو الخيار الأكثر شمولا للتجزئة، وأن أحجام القاموس الأكبر تؤدي إلى جودة الترجمة الأعلى.
يمكن أن تلعب الموارد الحسابية مثل سورانيا المشروح الدولى دورا مهما في تمكين المتحدثين لغات الأقليات الأصلية للمشاركة في الحكومة والتعليم ومجالات الحياة العامة في لغتهم العامة.ومع ذلك، فإن العديد من اللغات - بشكل رئيسي أولئك الذين لديهم سكان متكلمون أ صليين صغار ودون تقاليد مكتوبة - ليس لديهم دعما رقميا.عقبة واحدة في إنشاء هذه الموارد هي أنه بالنسبة للعديد من اللغات، سيكون عدد قليل من المتحدثين قادرين على تسجيل النصوص - وهي مهمة تتطلب محو الأمية وبعض التدريب اللغوي - وأن وقت هؤلاء الخبراء عادة ما يكون في ارتفاع الطلب على أعمال تخطيط اللغة.تقوم هذه الورقة بتقييم ما إذا كانت غير مكبرات الصوت المدربة في لغة أصلية يمكن أن تؤدي إشعالا دلاليين باستخدام عروض توضيحي موحدة، مما يسمح بإنشاء مواد حسابية دون إيصال المزيد من الضغط على موارد المجتمع.
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات لمساعدة الباحثين والممارسين على فهم التحديات التي يفرضونها على مهام NER.نقوم بتحليل مجموعات البيانات لدينا وإجراء تقييم تجريبي واسع النطاق للطرق الحكومية في جميع إعدادات التعلم الإشراف والنقل.أخيرا، نطلق سراح البيانات والرمز والنماذج لإلهام البحوث المستقبلية على الأفريقية NLP.1

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا