يعد غياب التشكيل في النصوص العربية الحديثة من أكبر التحديات التي تواجه المعالجة الآلية للغة العربية. يمكن للقارئ العربي أن يتوقع التشكيل الصحيح للكلمات عند قراءته نصاً غير مشكول، في حين يحتاج الحاسوب إلى
خوارزميات لاستعادة التشكيل بالاعتماد على معارف مختلفة. و نقصد بالتشكيل الحركات جميعها (ضمة، فتحة، كسرة، سكون)، فضلاً عن الشدة و التنوين. تعتمد بعض منهجيات التشكيل الآلي على المعالجة اللغوية للنصوص، في حين تعتمد منهجيات أخرى على طرائق إحصائية تستند إلى المدونات، و تدمج بعض النظم المنهجيتين السابقتين في مقاربات هجينة.
نعرض في هذا البحث دراسة مرجعية شاملة للطرائق المختلفة التي اعتُمدت في هذه المنهجيات، كما نستعرض المدونات المختلفة التي استُخدمت للاختبارات و التقويم، ثم نطرح مواصفات المدونات التي يجب إعدادها لإجرائيات التقويم، و المعايير التي يجب أن تحققها إجرائية تقويم المشكلات الآلية. يخلص البحث إلى وضع خطة عمل لبناء مشكل آلي مفتوح المصدر برعاية منظمة ألكسو، و بمشاركة جهات بحثية من بلدان مختلفة.
The absence of diacritization in Arabic texts is one of the most important challenges facing the
automatic Arabic Language processing. When reading, Arabic reader can expect the correct
diacritics of words, while computers need algorithms to restore the diacritization based on
knowledge of different levels. Diacritization here includes all the diacritics (dama, fatha, kasra,
sokon), in addition to alshadda, and altanween.
Some diacritization methods are based on the linguistic processing of texts, while other
methods are based on statistical methods using textual corpus. Some systems integrate the two
methodologies in hybrid approaches.
In this paper we present a comprehensive study of different methods that have been adopted in
these diacritization systems. In addition, we review the various corpuses that have been used
for tests and evaluation, then suggest the specifications of the Arabic corpus needed for
diacritization systems, and the standards that the evaluation process must take into
consideration. The main objective is to develop an action plan for the construction of an
automatic diacritizer of Arabic texts under the auspices of ALECSO, with the participation of
many research entities from different countries.
Artificial intelligence review:
Research summary
تتناول هذه الدراسة التحديات التي تواجه التشكيل الآلي للنصوص العربية، وتستعرض مختلف المنهجيات المستخدمة في هذا المجال. تتطرق الدراسة إلى الطرق اللغوية والإحصائية والهجينة، وتستعرض المدونات المستخدمة في الاختبارات والتقويم. كما تطرح الدراسة خطة عمل لبناء مشكل آلي مفتوح المصدر بالتعاون مع منظمة ألكسو وجهات بحثية من بلدان مختلفة. تتضمن الخطة إنشاء مدونة مشكولة، ونظام لتقويم المشكلات الآلية، وإجراء تعديلات على المشكلات المختلفة لتحسين النتائج، وأخيراً إعداد توثيق موسع للنظام المفتوح المصدر.
Critical review
دراسة نقدية: على الرغم من الجهد الكبير المبذول في هذه الدراسة، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، لم يتم توضيح كيفية التعامل مع النصوص التي تحتوي على أخطاء إملائية أو نحوية، وهو أمر شائع في النصوص العربية. ثانياً، الدراسة تركز بشكل كبير على الجانب التقني دون التطرق بشكل كافٍ إلى التطبيقات العملية للمشكل الآلي في مجالات مثل التعليم أو الإعلام. ثالثاً، كان من الممكن تقديم أمثلة عملية أكثر توضيحاً لنتائج النماذج المختلفة لتحسين فهم القارئ.
Questions related to the research
-
ما هي التحديات الرئيسية التي تواجه التشكيل الآلي للنصوص العربية؟
من التحديات الرئيسية غياب التشكيل في النصوص العربية الحديثة، مما يتطلب استخدام خوارزميات معقدة لمحاكاة القدرة البشرية على استعادة التشكيل الصحيح.
-
ما هي المنهجيات المختلفة المستخدمة في التشكيل الآلي للنصوص العربية؟
تتضمن المنهجيات المعالجة اللغوية للنصوص، الطرق الإحصائية المستندة إلى المدونات، والمقاربات الهجينة التي تدمج بين الطريقتين.
-
ما هي خطة العمل المقترحة لبناء مشكل آلي مفتوح المصدر؟
تشمل الخطة إنشاء مدونة مشكولة، تطوير نظام آلي لتقويم المشكلات، إجراء تعديلات على المشكلات المختلفة لتحسين النتائج، وإعداد توثيق موسع للنظام المفتوح المصدر.
-
ما هي المعايير التي يجب أن تحققها المدونات المستخدمة في تقويم نظم التشكيل الآلي؟
يجب أن تشمل المدونات مجموعة كبيرة من النصوص في مجالات متعددة، أن تكون مشكولة بالكامل، وأن تحتوي على معلومات لغوية مثل نمط الكلمة وبنيتها الصرفية.
References used
N. Habash, O. Rambow, 2007, "Arabic Diacritization through Full Morphological Tagging", Proceedings of 8th Meeting of the North American Chapter of the Association for Computational Linguistics; Human Language Technologies Conference
M. Rashwan, M. Al-Badrashiny, M. Attia and S. M. Abdou, 2009, "A Hybrid System for Automatic Arabic Diacritization", Proceedings of the 2nd International Conference on Arabic Language Resources and Tools, Cairo, Egypt, April 2009
M. Maamouri, A. Bies, and T. Buckwalter. 2004. The Penn Arabic Treebank: Building a large-scale annotated arabic corpus. In NEMLAR Conference on Arabic Language Resources and Tools, Cairo, Egypt