ترغب بنشر مسار تعليمي؟ اضغط هنا
Avatar

مجتمع الباحثين

مجموعة عامة تضم جميع الباحثين

776 منشورات
عامة مجتمع باحثين

ما هي نسبة نضوج اللغة العربية في مجال NLP مقارنة باللغة الانكليزية ؟ و ما مدى توفر المصادر العربية التي يمكن استخدامها في التدريب ؟

270  - Hassan طرح Hassan Juniedi  
Nlp اللغة العربية

الإجابات

Shadi

نشر من قبل Shadi Saleh

مازالت الأبحاث في اللغة العربية قاصرة جدا مقارنة مع اللغة الانكليزية لاسباب متعلقة ب

١- خصوصية اللغة العربية مقارنة مع الانكليزية:

  • اللغة العربية لغة غنية مورفولوجياً، مثلا كلمة مثل (كتب) يمكن أن تشتق منها عشرات الكلمات (يكتب، تكتب, أكتب, يكتبون, تكتبون, استكتاب, مكتوب, كاتب الخ..) هذه الخاصية تجعل فضاء البحث في تطبيقات مثل الترجمة او تمييز الكلام اكبر بكثير من لغة مثل اللغة الانكليزية, وكلما اتسع فضاء البحث كلما تعرضنا لمشكلة مشهورة في ال NLP تدعى الغموض Ambiguity.
  • التشكيل في اللغة العربية يستخدم لحل مشكلات الغموض التي ذكرتها سابقا, مثلا عندما نقول "ذهبت إلى المدرسة" هنا بدون تشكيل لا نعرف اذا كان الفاعل "أنا" او "انت" او "هي", المشكلة الاساسية اننا لا نستخدم التشكيل في النص المكتوب بالتالي الحصول على بيانات تدريبية لاتحوي تشكيل سيشكل تحدي، رغم وجود تطبيقات تشكيل الي ولكن دائما يوجد هامش للخطأ.
  • اللغة العربية لا تستخدم الأحرف اللاتينية، نعلم ان الحواسيب طورت بالدرجة الاولى لدعم ترميز ASCII الذي يشمل الاحرف اللاتينية.


بالنسبة للشق الثاني من السؤال، المصادر التدريبية في لغات مثل الانكليزية، الألمانية، الروسية وغيرها متوفرة بكثرة بسبب جهود على مستوى مؤسسات لتوفيرها بينما لا تتوفر اي مبادرة عربية منظمة لتوفير مصادر لغوية لتطبيقات الذكاء الصنعي مما يجعل المصادر مقتصرة على مشاريع من جهات اجنبية مثل Stanford https://nlp.stanford.edu/projects/arabic.shtml او جامعة تشارلز في براغ https://ufal.mff.cuni.cz/padt/PADT_1.0/docs/index.html



mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا