Do you want to publish a course? Click here

Exploring Arabic text diacritization approaches in view of establishing an action plan for developing an open source diacritizer

دراسة منهجيات التشكيل الآلي للنصوص العربية بهدف وضع خطة عمل لبناء مشكل آلي مفتوح المصدر

3166   2   45   0 ( 0 )
 Publication date 2012
and research's language is العربية
 Created by Shamra Editor




Ask ChatGPT about the research

The absence of diacritization in Arabic texts is one of the most important challenges facing the automatic Arabic Language processing. When reading, Arabic reader can expect the correct diacritics of words, while computers need algorithms to restore the diacritization based on knowledge of different levels. Diacritization here includes all the diacritics (dama, fatha, kasra, sokon), in addition to alshadda, and altanween. Some diacritization methods are based on the linguistic processing of texts, while other methods are based on statistical methods using textual corpus. Some systems integrate the two methodologies in hybrid approaches. In this paper we present a comprehensive study of different methods that have been adopted in these diacritization systems. In addition, we review the various corpuses that have been used for tests and evaluation, then suggest the specifications of the Arabic corpus needed for diacritization systems, and the standards that the evaluation process must take into consideration. The main objective is to develop an action plan for the construction of an automatic diacritizer of Arabic texts under the auspices of ALECSO, with the participation of many research entities from different countries.


Artificial intelligence review:
Research summary
تتناول هذه الدراسة التحديات التي تواجه التشكيل الآلي للنصوص العربية، وتستعرض مختلف المنهجيات المستخدمة في هذا المجال. تتطرق الدراسة إلى الطرق اللغوية والإحصائية والهجينة، وتستعرض المدونات المستخدمة في الاختبارات والتقويم. كما تطرح الدراسة خطة عمل لبناء مشكل آلي مفتوح المصدر بالتعاون مع منظمة ألكسو وجهات بحثية من بلدان مختلفة. تتضمن الخطة إنشاء مدونة مشكولة، ونظام لتقويم المشكلات الآلية، وإجراء تعديلات على المشكلات المختلفة لتحسين النتائج، وأخيراً إعداد توثيق موسع للنظام المفتوح المصدر.
Critical review
دراسة نقدية: على الرغم من الجهد الكبير المبذول في هذه الدراسة، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، لم يتم توضيح كيفية التعامل مع النصوص التي تحتوي على أخطاء إملائية أو نحوية، وهو أمر شائع في النصوص العربية. ثانياً، الدراسة تركز بشكل كبير على الجانب التقني دون التطرق بشكل كافٍ إلى التطبيقات العملية للمشكل الآلي في مجالات مثل التعليم أو الإعلام. ثالثاً، كان من الممكن تقديم أمثلة عملية أكثر توضيحاً لنتائج النماذج المختلفة لتحسين فهم القارئ.
Questions related to the research
  1. ما هي التحديات الرئيسية التي تواجه التشكيل الآلي للنصوص العربية؟

    من التحديات الرئيسية غياب التشكيل في النصوص العربية الحديثة، مما يتطلب استخدام خوارزميات معقدة لمحاكاة القدرة البشرية على استعادة التشكيل الصحيح.

  2. ما هي المنهجيات المختلفة المستخدمة في التشكيل الآلي للنصوص العربية؟

    تتضمن المنهجيات المعالجة اللغوية للنصوص، الطرق الإحصائية المستندة إلى المدونات، والمقاربات الهجينة التي تدمج بين الطريقتين.

  3. ما هي خطة العمل المقترحة لبناء مشكل آلي مفتوح المصدر؟

    تشمل الخطة إنشاء مدونة مشكولة، تطوير نظام آلي لتقويم المشكلات، إجراء تعديلات على المشكلات المختلفة لتحسين النتائج، وإعداد توثيق موسع للنظام المفتوح المصدر.

  4. ما هي المعايير التي يجب أن تحققها المدونات المستخدمة في تقويم نظم التشكيل الآلي؟

    يجب أن تشمل المدونات مجموعة كبيرة من النصوص في مجالات متعددة، أن تكون مشكولة بالكامل، وأن تحتوي على معلومات لغوية مثل نمط الكلمة وبنيتها الصرفية.


References used
N. Habash, O. Rambow, 2007, "Arabic Diacritization through Full Morphological Tagging", Proceedings of 8th Meeting of the North American Chapter of the Association for Computational Linguistics; Human Language Technologies Conference
M. Rashwan, M. Al-Badrashiny, M. Attia and S. M. Abdou, 2009, "A Hybrid System for Automatic Arabic Diacritization", Proceedings of the 2nd International Conference on Arabic Language Resources and Tools, Cairo, Egypt, April 2009
M. Maamouri, A. Bies, and T. Buckwalter. 2004. The Penn Arabic Treebank: Building a large-scale annotated arabic corpus. In NEMLAR Conference on Arabic Language Resources and Tools, Cairo, Egypt
rate research

Read More

We present an open-source toolkit for Danish Natural Language Processing, enabling easy access to Danish NLP's latest advancements. The toolkit features wrapper-functions for loading models and datasets in a unified way using third-party NLP framewor ks. The toolkit is developed to enhance community building, understanding the need from industry and knowledge sharing. As an example of this, we present Angry Tweets: An Annotation Game to create awareness of Danish NLP and create a new sentiment-annotated dataset.
The ability to search the Web sites has become essential for many people. However many sites have problems in giving the user the needed information. Search operations are typically limited to keyword searches and do not take into consideration the u nderlying semantics of the content.The present technologies support most languages; Though Arabic is still not well supported. One of the main application areas of Ontology technology is semantics. Although there are many tools for developing Ontology’s in many languages, Arabic WordNet seems to be the only one that supports Arabic language. In this paper we will define the necessary steps to develop Arabic Ontology for university sites using Arabic WordNet, and check that the developed Ontology is clean.
Accurate translation requires document-level information, which is ignored by sentence-level machine translation. Recent work has demonstrated that document-level consistency can be improved with automatic post-editing (APE) using only target-languag e (TL) information. We study an extended APE model that additionally integrates source context. A human evaluation of fluency and adequacy in English--Russian translation reveals that the model with access to source context significantly outperforms monolingual APE in terms of adequacy, an effect largely ignored by automatic evaluation metrics. Our results show that TL-only modelling increases fluency without improving adequacy, demonstrating the need for conditioning on source text for automatic post-editing. They also highlight blind spots in automatic methods for targeted evaluation and demonstrate the need for human assessment to evaluate document-level translation quality reliably.
دراسة لعدة برمجيات مفتوحة المصدر لإدارة المكتبات الرقمية المستخدمة لاستيعاب المعلومات ونشرها الى الأشخاص الذين يحتاجونها.
Despite achieving remarkable performance, previous knowledge-enhanced works usually only use a single-source homogeneous knowledge base of limited knowledge coverage. Thus, they often degenerate into traditional methods because not all dialogues can be linked with knowledge entries. This paper proposes a novel dialogue generation model, MSKE-Dialog, to solve this issue with three unique advantages: (1) Rather than only one, MSKE-Dialog can simultaneously leverage multiple heterogeneous knowledge sources (it includes but is not limited to commonsense knowledge facts, text knowledge, infobox knowledge) to improve the knowledge coverage; (2) To avoid the topic conflict among the context and different knowledge sources, we propose a Multi-Reference Selection to better select context/knowledge; (3) We propose a Multi-Reference Generation to generate informative responses by referring to multiple generation references at the same time. Extensive evaluations on a Chinese dataset show the superior performance of this work against various state-of-the-art approaches. To our best knowledge, this work is the first to use the multi-source heterogeneous knowledge in the open-domain knowledge-enhanced dialogue generation.
comments
Fetching comments Fetching comments
Sign in to be able to follow your search criteria
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا