دراسة منهجيات التشكيل الآلي للنصوص العربية بهدف وضع خطة عمل لبناء مشكل آلي مفتوح المصدر


الملخص بالعربية

يعد غياب التشكيل في النصوص العربية الحديثة من أكبر التحديات التي تواجه المعالجة الآلية للغة العربية. يمكن للقارئ العربي أن يتوقع التشكيل الصحيح للكلمات عند قراءته نصاً غير مشكول، في حين يحتاج الحاسوب إلى خوارزميات لاستعادة التشكيل بالاعتماد على معارف مختلفة. و نقصد بالتشكيل الحركات جميعها (ضمة، فتحة، كسرة، سكون)، فضلاً عن الشدة و التنوين. تعتمد بعض منهجيات التشكيل الآلي على المعالجة اللغوية للنصوص، في حين تعتمد منهجيات أخرى على طرائق إحصائية تستند إلى المدونات، و تدمج بعض النظم المنهجيتين السابقتين في مقاربات هجينة. نعرض في هذا البحث دراسة مرجعية شاملة للطرائق المختلفة التي اعتُمدت في هذه المنهجيات، كما نستعرض المدونات المختلفة التي استُخدمت للاختبارات و التقويم، ثم نطرح مواصفات المدونات التي يجب إعدادها لإجرائيات التقويم، و المعايير التي يجب أن تحققها إجرائية تقويم المشكلات الآلية. يخلص البحث إلى وضع خطة عمل لبناء مشكل آلي مفتوح المصدر برعاية منظمة ألكسو، و بمشاركة جهات بحثية من بلدان مختلفة.

المراجع المستخدمة

N. Habash, O. Rambow, 2007, "Arabic Diacritization through Full Morphological Tagging", Proceedings of 8th Meeting of the North American Chapter of the Association for Computational Linguistics; Human Language Technologies Conference
M. Rashwan, M. Al-Badrashiny, M. Attia and S. M. Abdou, 2009, "A Hybrid System for Automatic Arabic Diacritization", Proceedings of the 2nd International Conference on Arabic Language Resources and Tools, Cairo, Egypt, April 2009
M. Maamouri, A. Bies, and T. Buckwalter. 2004. The Penn Arabic Treebank: Building a large-scale annotated arabic corpus. In NEMLAR Conference on Arabic Language Resources and Tools, Cairo, Egypt

تحميل البحث