ما هي نسبة نضوج اللغة العربية في مجال NLP مقارنة باللغة الانكليزية ؟ و ما مدى توفر المصادر العربية التي يمكن استخدامها في التدريب ؟

مجتمع الباحثين

مجموعة عامة تضم جميع الباحثين

779 منشورات

عامة مجتمع باحثين

العودة الى الصفحة الرئيسية

ما هي نسبة نضوج اللغة العربية في مجال NLP مقارنة باللغة الانكليزية ؟ و ما مدى توفر المصادر العربية التي يمكن استخدامها في التدريب ؟

457 - 2019-05-12

طرح Hassan Juniedi

Nlp اللغة العربية

الإجابات

نشر من قبل Shadi Saleh

2019-05-13

مازالت الأبحاث في اللغة العربية قاصرة جدا مقارنة مع اللغة الانكليزية لاسباب متعلقة ب

١- خصوصية اللغة العربية مقارنة مع الانكليزية:

اللغة العربية لغة غنية مورفولوجياً، مثلا كلمة مثل (كتب) يمكن أن تشتق منها عشرات الكلمات (يكتب، تكتب, أكتب, يكتبون, تكتبون, استكتاب, مكتوب, كاتب الخ..) هذه الخاصية تجعل فضاء البحث في تطبيقات مثل الترجمة او تمييز الكلام اكبر بكثير من لغة مثل اللغة الانكليزية, وكلما اتسع فضاء البحث كلما تعرضنا لمشكلة مشهورة في ال NLP تدعى الغموض Ambiguity.
التشكيل في اللغة العربية يستخدم لحل مشكلات الغموض التي ذكرتها سابقا, مثلا عندما نقول "ذهبت إلى المدرسة" هنا بدون تشكيل لا نعرف اذا كان الفاعل "أنا" او "انت" او "هي", المشكلة الاساسية اننا لا نستخدم التشكيل في النص المكتوب بالتالي الحصول على بيانات تدريبية لاتحوي تشكيل سيشكل تحدي، رغم وجود تطبيقات تشكيل الي ولكن دائما يوجد هامش للخطأ.
اللغة العربية لا تستخدم الأحرف اللاتينية، نعلم ان الحواسيب طورت بالدرجة الاولى لدعم ترميز ASCII الذي يشمل الاحرف اللاتينية.

بالنسبة للشق الثاني من السؤال، المصادر التدريبية في لغات مثل الانكليزية، الألمانية، الروسية وغيرها متوفرة بكثرة بسبب جهود على مستوى مؤسسات لتوفيرها بينما لا تتوفر اي مبادرة عربية منظمة لتوفير مصادر لغوية لتطبيقات الذكاء الصنعي مما يجعل المصادر مقتصرة على مشاريع من جهات اجنبية مثل Stanford https://nlp.stanford.edu/projects/arabic.shtml او جامعة تشارلز في براغ https://ufal.mff.cuni.cz/padt/PADT_1.0/docs/index.html

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

مجتمع الباحثين

ما هي نسبة نضوج اللغة العربية في مجال NLP مقارنة باللغة الانكليزية ؟ و ما مدى توفر المصادر العربية التي يمكن استخدامها في التدريب ؟

الإجابات