مازالت الأبحاث في اللغة العربية قاصرة جدا مقارنة مع اللغة الانكليزية لاسباب متعلقة ب
١- خصوصية اللغة العربية مقارنة مع الانكليزية:
- اللغة العربية لغة غنية مورفولوجياً، مثلا كلمة مثل (كتب) يمكن أن تشتق منها عشرات الكلمات (يكتب، تكتب, أكتب, يكتبون, تكتبون, استكتاب, مكتوب, كاتب الخ..) هذه الخاصية تجعل فضاء البحث في تطبيقات مثل الترجمة او تمييز الكلام اكبر بكثير من لغة مثل اللغة الانكليزية, وكلما اتسع فضاء البحث كلما تعرضنا لمشكلة مشهورة في ال NLP تدعى الغموض Ambiguity.
- التشكيل في اللغة العربية يستخدم لحل مشكلات الغموض التي ذكرتها سابقا, مثلا عندما نقول "ذهبت إلى المدرسة" هنا بدون تشكيل لا نعرف اذا كان الفاعل "أنا" او "انت" او "هي", المشكلة الاساسية اننا لا نستخدم التشكيل في النص المكتوب بالتالي الحصول على بيانات تدريبية لاتحوي تشكيل سيشكل تحدي، رغم وجود تطبيقات تشكيل الي ولكن دائما يوجد هامش للخطأ.
- اللغة العربية لا تستخدم الأحرف اللاتينية، نعلم ان الحواسيب طورت بالدرجة الاولى لدعم ترميز ASCII الذي يشمل الاحرف اللاتينية.
بالنسبة للشق الثاني من السؤال، المصادر التدريبية في لغات مثل الانكليزية، الألمانية، الروسية وغيرها متوفرة بكثرة بسبب جهود على مستوى مؤسسات لتوفيرها بينما لا تتوفر اي مبادرة عربية منظمة لتوفير مصادر لغوية لتطبيقات الذكاء الصنعي مما يجعل المصادر مقتصرة على مشاريع من جهات اجنبية مثل Stanford https://nlp.stanford.edu/projects/arabic.shtml او جامعة تشارلز في براغ https://ufal.mff.cuni.cz/padt/PADT_1.0/docs/index.html