ترغب بنشر مسار تعليمي؟ اضغط هنا

بناء نواة نظام مساعد على إنشاء أنطولوجية عربية انطلاقاً من النصوص

Towards a system for constructing Arabic Ontology based on natural text

1987   0   55   0 ( 0 )
 تاريخ النشر 2011
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نعرض في هذا البحث المنهجية المعتمدة في بناء منصة ArOntoLearn, و هي بيئة عمل تساعد على بناء أنطولوجية عربية اعتماداً على النصوص في الوب، و أهم سمات هذه البيئة أنها تدعم اللغة العربية و تستخدم المعرفة السابقة في إجرائيات التعلم، فضلاً عن أنها تمثل الأنطولوجية الناتجة باستخدام نموذج الأنطولوجية الاحتمالي (Probabilistic Ontology Model (POM الذي يمكن ترجمته إلى أي صيغة تمثيل للمعرفة. يقوم النظام بتحليل الموارد النصية العربية، يقابلها مع نماذج مفرادتية-نحوية بهدف تعّلم مفاهيم و علاقات جديدة. إن دعم اللغة العربية ليس سهلاً نظراً لكون أدوات المعالجة اللغوية المتوافرة غير فعالة كفاية لمعالجة النصوص العربية غير المشكولة التي كذلك نادراً ما تتضمن علامات الترقيم الصحيحة المساعدة على التحليل الصحيح للجمل. لذلك حاولنا بناء بيئة عمل مرنة يمكن إعدادها بسهولة بحيث تُعدلُ أدوات التحليل المستخدمة فيها و تُستَبدلُ بأخرى أكثر تطوراً عند توافرها.



المراجع المستخدمة
John.son, C., Fillmore, C., Petruck, M. Baker, C., Ellsworth, M., Ruppenhofer, J., and Wood, E. 2002. FrameNet: Theory and Practice, from http://www.icsi.Berkeley.edu / framenet
Josef Ruppenhofer, MichaelEllsworth, Miriam R. L. Petruck, Christopher R. Johnson, Jan Scheffczyk. "Frame Net II :Extended Theory and Practice", 2006
WordNet. Retrieved June 2009, from http//:www.globalwordnet.org
قيم البحث

اقرأ أيضاً

المواد الحيوية هي المواد الاصطناعية أو الطبيعية المستخدمة لبناء الأعضاء الاصطناعية، أو تصنيع الأطراف الاصطناعية، أو استبدال الأنسجة. شهد القرن الماضي تطور الآلاف من المواد الحيوية الجديدة، ونتيجة لذلك، زيادة أسية في المنشورات العلمية في هذا المجال. ي مكن أن تمكن تحليل واسع النطاق من المواد الحيوية وأدائها اختيار المواد التي يحركها البيانات وتصميم الزرع. ومع ذلك، يتطلب مثل هذا التحليل تحديد وتنظيم المفاهيم، مثل المواد والهياكل، من النصوص المنشورة. لتسهيل استخراج المعلومات في المستقبل وتطبيق تقنيات تعلم الآلات، قمنا بتطوير Annotator الدلالي خصيصا مصممة خصيصا لأدبيات المواد الحيوية. تم تنفيذ Annetator SNANTATATATATATOR باتباع منظمة وحدات تستخدم حاويات البرمجيات للمكونات المختلفة وتزويرها باستخدام nextflow كدير سير العمل. تم تطوير مكونات معالجة اللغة الطبيعية (NLP) بشكل أساسي في Java. سمح هذا الإعداد بالاعتراف الكي في الكيان المسمى بدقة سبعة عشر فئة ذات صلة بمجال المواد الحيوية. نحن هنا تفصيل تطوير وتقييم وأداء النظام، وكذلك إصدار المجموعة الأولى من ملخصات المواد الحيوية المشروحة. نجعل كل من الجور والنظام المتاح للمجتمع لتعزيز الجهود المستقبلية في هذا المجال والمساهمة في استدامتها.
تسأل الأسئلة الحديثة الإجابة على معايير القراءة والآلة في كثير من الأحيان تقلل من المهمة إلى واحدة من 12 يمتد في مقطع نص معين يجيب على السؤال المحدد. عادة ما تكون هذه النظم غير مطلوبة لفهم النص على مستوى أعمق يسمح بالتفكير الأكثر تعقيدا في المعلومات الواردة. نقدم مجموعة بيانات جديدة تسمى BIQUAD التي تتطلب فهم أعمق من أجل الإجابة على الأسئلة بطريقة استخراجية وملىذة. تتكون DataSet من 4،190 نص مغلقا ومما مجموعه 99،149 زوجا للإجابة على الأسئلة. تقوم النصوص بتوليد تقارير مباراة كرة القدم التي تنشط الأحداث الرئيسية لكل مباراة. تتم مصحوبة جميع النصوص برامج Datalog منظمة تمثل نموذجا (منطقي) من معلوماتها. نظهر أن طرازات ضمان الجودة لا تعمل بشكل جيد على سياقات النموذج الطويلة الصعبة ومتطلبات التفكير التي تطرحتها مجموعة البيانات. على وجه الخصوص، تحقق النماذج القائمة على المحولات الموجودة على النتائج F1 من 39.0 فقط. نوضح كيف تحاكي مجموعات البيانات الاصطناعية هذه المعرفة المهيكلة بالنص الطبيعي وتأمل نموذج المساعدة عند الاقتراب من فهم النص المعقد.
تدابير السيكومترية للقدرة والمواقف والتصورات والمعتقدات أمر حاسم لفهم سلوك المستخدم في سياقات مختلفة بما في ذلك الصحة والأمن والتجارة الإلكترونية والتمويل. تقليديا، تم قياس الأبعاد السيكومترية وجمعها باستخدام الأساليب المستندة إلى المسح. استنتاج مثل هذه البنيات من النص الذي تم إنشاؤه من قبل المستخدم قد يسمح بجمع وتحليلات غير مزعجة في الوقت المناسب. في هذه الورقة، نقوم ببذل جهودنا لبناء كوربوس لمعالجة اللغة الطبيعية السيكومترية (NLP) المتعلقة بالأبعاد الهامة مثل الثقة والقلق والحساب ومحو الأمية، في مجال الصحة. نناقش عملية لدينا متعددة الخطوات لمحاذاة نص المستخدم بنود الاستجابة المستندة إلى المسح وتوفير نظرة عامة على الاختبار الناتج والتي تشمل التدابير النفسية القائمة على المسح والاستطلاع على النص الذي تم إنشاؤه من قبل المستخدم من 8،502 المساواة. يشمل TestBed أيضا معلومات سكانية تم الإبلاغ عنها ذاتيا، بما في ذلك العرق والجنس والعمر والدخل والتعليم - مما يوفر فرصا لقياس التحيز وأساليب تصنيف النص. نبلغ عن نتائج أولية عن استخدام النص للتنبؤ / تصنيف تسميات استجابة المسح للمستخدمين - وعلى مدى نزاهة هذه النماذج. ونناقش أيضا الآثار المهمة لعملنا ونتيجة إلى اختبار بحث NLP في المستقبل بشأن الحروض النفسية والإنصاف.
معظم الوقت، عند التعامل مع مهمة معينة لمعالجة اللغة الطبيعية، تتم مقارنة الأنظمة على أساس الإحصاءات العالمية مثل الاستدعاء والدقة ودرجة F1، وما إلى ذلك، بينما توفر هذه الدرجات فكرة عامة عن سلوك هذه الأنظمة، إنهم يتجاهلون جزءا رئيسيا من المعلومات التي يمكن أن تكون مفيدة لتقييم التقدم المحرز والتحديات المتبقية المتميزة: الصعوبة النسبية في حالات الاختبار. لمعالجة هذا القصور، نقدم فكرة التقييم التفاضلي الذي يحدد فعليا التقسيم العملي من الحالات في صناديق أكثر صعوبة تدريجيا من خلال الاستفادة من التنبؤات التي قدمتها مجموعة من الأنظمة. تمكننا مقارنة الأنظمة على طول صناديق الصعوبة هذه أن تنتجنا تحليلا مدققا لأسعارها النسبية، والتي نوضحها على حالتي الاستخدام: مقارنة بين النظم المشاركة في مهمة تصنيف النص متعدد الملصقات (CLF EHENGE 2018 ICD-10 ICD-10 )، ومقارنة النماذج العصبية المدربة للكشف عن الكيانات الطبية الحيوية (مجموعة بيانات علاقات الأمراض الكيميائية الثنائية الطبيوم الكيميائية).
أصبحت القدرة على البحث ضمن مواقع الانترنت ضرورة للكثير من الناس و تعاني كثير من مواقع الانترنت من صعوبة وصول المستخدم للمعلومة المطلوبة بسبب عدم الأخذ بالحسبان معاني الكلمات و مدلولاتها Semantics عند البحث تدعم التقنيات الحالية معظم اللغات الطبيعية مع بقاء ذلك ضعيفاً بالنسبة للغة العربية. تشكل الأنطولوجيا العنصر المحوري في التطبيقات التي تدعم علم دلالات الألفاظ, و على الرغم من وجود الكثير من أدوات بناء الانطولوجيات باللغات الأجنبية، فإن الأداة Arabic WordNet (AWN)، التي تعدّ من المصادر المفتوحة قد تكون الوحيدة التي تسمح لنا بتطوير انطولوجيا باللغة العربية. في هذا البحث سنقوم بتحديد الخطوات اللازمة لتطوير انطولوجيا عربية و بناء انطولوجيا اعتماداً على هذه الخطوات تستخدم في مواقع الجامعات مستخدمين الأداة Arabic WordNet التأكد من نظافة الانطولوجيا المصممة، و تقييم أداء عملية البحث في الموقع بعد استخدام الانطولوجيا المصممة.
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا