ترغب بنشر مسار تعليمي؟ اضغط هنا

استخراج المعلومات الدلالية من الوثائق البحثية

Semantic Knowledge Extraction from Research Documents

975   0   27   0.0 ( 0 )
 نشر من قبل جامعة دمشق مقالة
 تاريخ النشر 2019
  مجال البحث الهندسة المعلوماتية
والبحث باللغة العربية
 تمت اﻹضافة من قبل Boshra AlHabal




اسأل ChatGPT حول البحث

هذه المقالة تحوي ترجمة وتلخيص وتوضيح للمذكور في الورقة البحثية المذكور اسمها أعلاه والموجودة في https://annals-csis.org/Volume_8/pliks/221.pdf , والتي تقوم باستخراج المعلومات الدلالية المهمة الموجودة في الوثائق والملفات والأوراق البحثية .


ملخص البحث
تقدم الورقة البحثية نظامًا برمجيًا لاستخراج المعرفة الدلالية من الوثائق البحثية بصيغة PDF. يتكون النظام من عدة خطوات تشمل استخراج المعلومات من ملفات PDF، معالجة البيانات المسبقة، استخراج الكلمات المفتاحية وكلمات الخطاب، وبناء مخزن ثلاثي (Triple-Store). يتم استخدام تقنيات معالجة اللغات الطبيعية (NLP) وعلم الدلالة (ST) لاستخراج الجمل والكلمات الهامة وفقًا لقواعد محددة تتعلق باهتمامات المستخدم. يتم تصوير العلاقات بين الجمل المستخرجة على شكل شبكة رسم بياني، ويمكن للمستخدم اقتراح قواعد جديدة لاستخراج معرفة إضافية. تم اختبار النظام على مجموعة من الأوراق البحثية المتعلقة بإنترنت الأشياء (IoT) وحقق نتائج مقبولة في استخراج المعرفة الهامة.
قراءة نقدية
دراسة نقدية: الورقة البحثية تقدم نظامًا متكاملًا لاستخراج المعرفة الدلالية من الوثائق البحثية، وهو موضوع ذو أهمية كبيرة في عصر البيانات الضخمة. ومع ذلك، يمكن تحسين النظام من خلال تضمين تقنيات أكثر تقدمًا في معالجة اللغات الطبيعية لتحليل التركيب النحوي للجمل بشكل أفضل. كما يمكن تحسين دقة استخراج المعرفة من خلال تطوير قواعد استدلال أكثر تعقيدًا. بالإضافة إلى ذلك، يمكن توسيع نطاق التطبيق ليشمل مجالات أخرى غير إنترنت الأشياء، مما يزيد من فائدة النظام في مجالات متعددة.
أسئلة حول البحث
  1. ما هو الهدف الرئيسي من النظام المقترح في الورقة البحثية؟

    الهدف الرئيسي هو استخراج المعرفة الدلالية من الوثائق البحثية بصيغة PDF باستخدام تقنيات معالجة اللغات الطبيعية وعلم الدلالة.

  2. ما هي الخطوات الأساسية التي يتكون منها النظام المقترح؟

    يتكون النظام من استخراج المعلومات من ملفات PDF، معالجة البيانات المسبقة، استخراج الكلمات المفتاحية وكلمات الخطاب، وبناء مخزن ثلاثي (Triple-Store)، وقواعد الاستدلال، وتصوير البيانات.

  3. ما هي التقنيات المستخدمة في النظام لاستخراج المعرفة؟

    يستخدم النظام تقنيات معالجة اللغات الطبيعية (NLP) وعلم الدلالة (ST) واستخراج المعلومات (IE).

  4. ما هي المجالات التي تم اختبار النظام عليها؟

    تم اختبار النظام على مجموعة من الأوراق البحثية المتعلقة بإنترنت الأشياء (IoT).


المراجع المستخدمة
ﻻ يوجد مراجع
قيم البحث

اقرأ أيضاً

في هذا العمل، قارننا تجريبيا أساليب استخراج الفصول لمهمة الدور الدلالي (SRL).في حين أن التقدم الأخير الذي يشتمل على تمثيلات محكومة مدربة مسبقا في الترميز العصبية قد حسن بشكل كبير أداء SRL F1 بشأن المعايير الشعبية، فإن التكاليف المهمة وفوائد فك التشفي ر المنظم في هذه النماذج أصبحت أقل وضوحا.مع تجارب واسعة النطاق على مجموعات بيانات Propbank SRL، نجد أن طرق فك التشفير أكثر تنظيما تفوق العلامات الحيوية عند استخدام Asceddings ثابت (نوع الكلمات) عبر جميع الإعدادات التجريبية.ومع ذلك، عند استخدامها جنبا إلى جنب مع تمثيلات الكلمات السياقية المدربة مسبقا، يتم تقلص الفوائد.نقوم أيضا بتجربة الإعدادات عبر النوع والإعدادات عبر اللغات والعثور على اتجاهات مماثلة.ونحن نؤدي كذلك إلى مقارنات السرعة وتوفير التحليل حول مفاضات الكفاءة الدقة بين أساليب فك التشفير المختلفة.
تستخدم الرسوم البيانية المعرفة (KGS) على نطاق واسع لتخزين المعلومات والوصول إليها حول الكيانات وعلاقاتها.بالنظر إلى استفسار، تهدف مهمة استرجاع الكيانات من KG إلى تقديم قائمة في المرتبة ذات الصلة بالاستعلام.في الآونة الأخيرة، أظهر عدد متزايد من النماذ ج لاسترجاع الكيان تحسنا كبيرا على الأساليب التقليدية.هذه النماذج، ومع ذلك، تم تطويرها للكلية الإنجليزية.في هذا العمل، نبني على نظام واحد من هذا القبيل، يدعى Kewer، لاقتراح Serag (استرجاع الكيانات الدلالي من الرسوم البيانية المعرفة العربية).مثل Kewer، يستخدم Serag مناحي عشوائي لتوليد embeddings للكياء.تعتبر DBPedia-Entity V2 مجموعة الاختبار القياسية لاسترجاع الكيان.نناقش تحديات استخدامها للغات غير الإنجليزية بشكل عام والعربية على وجه الخصوص.نحن نقدم نسخة عربية من هذه المجموعة القياسية، واستخدامها لتقييم Serag.يظهر Serag أنه يتفوق بشكل كبير على نموذج BM25 الشهير بفضل التفكير المتعدد القفز.
نحاول في هذا البحث أن نتناول أنظمة استخراج المعلومات المعتمدة على الأنتولوجي من خلال دراسة مرجعية مفصلة و شاملة، و نميز بينها و بين أنظمة أخرى مثل أنظمة استرجاع المعلومات و التنقيب في البيانات و كما نحاول أن نحدد البنية العامة لمثل هذه الأنظمة التي ت شكل جزء من أنظمة أكبر مهمتها الإجابة على استفسارات المستخدمين بالاعتماد على المعلومات المستخرجة. بعد ذلك نستعرض الأنواع المختلفة لهذه الانظمة و التقنيات المستخدمة فيها و من ثم نحاول حصر التحديات الحالية و المستقبلية و ما يترتب عليها من مشاكل بحث. و في النهاية نناقش تفاصيل التحقيقات المختلفة لهذه الانظمة من خلال شرح منصتي عمل للوسم الدلالي و هما (OpenCalais) و (Gate) و نحاول المقارنة بين أنظمة الاستخراج الخاصة بهما و مناقشة النتائج.
يُعتبر الويب الدلالي ثورة جديدة في عالم الويب، حيث تصبح المعلومات و البيانات قابلة للمعالجة منطقياً من قِبل برامج الحاسوب، بحيث تتحول تلك المعلومات و البيانات إلى شبكة معارف ذات معنى مُحدّد. يُشكّل الويب الدلالي مستقبل الويب الحالي مع الإشارة إلى أن البحوث و الدراسات العربية ما زالت قليلة نسبياً في هذا المجال. نعرض في هذه الورقة دراسة مرجعية عن الويب الدلالي و الطرق المختلفة لاستكشاف المعارف و استنباط المعلومات المفيدة من الكم الهائل من البيانات التي يوفرها الويب. كما نُقدّم مثال برمجي قمنا بتطويره كتطبيق لبعض التقانات التي يُقدمها الويب الدلالي و لاسيما طرق استكشاف المعارف فيه. نوفر في هذا المثال البرمجي المبسط بعض الخدمات المتعلقة بالتعليم العالي الحكومي السوري، مثل معلومات عن الجامعات الحكومية السورية كاسم الجامعة (الافتراضية، دمشق، تشرين، حلب و البعث)، موقع الجامعة، عنوان موقعها على شبكة الويب، عدد الطلاب فيها، و ملخص عن الجامعة، مما يُساعد العملاء الأذكياء على إيجاد تلك الخدمات ديناميكيا.
يتم إجراء جيل نصي من الرسوم البيانية الدلالية تقليديا مع الطرق الحتمية، والتي تولد وصفا فريدا نظرا رسم بياني للإدخال.ومع ذلك، تعترف مشكلة الجيل مجموعة من النواتج النصية المقبولة، وعرض الاختلاف المعجمي والمنظمات والدلية.لمعالجة هذا الفصل، نقدم مساهمتي ن رئيسيتين.أولا، نقترح نموذج رسم بياني مؤشر استوكاستكي، حيث يتضمن متغير كامنة في نموذج فك الترميز، واستخدامه في مجموعة.ثانيا، لتقييم تنوع الجمل التي تم إنشاؤها، نقترح مقياس التقييم التلقائي الجديد الذي يقيم بشكل مشترك تنوع المخرجات وجودة في إعداد متعدد المراجع.نقيم النماذج على مجموعات بيانات Webnlg باللغة الإنجليزية والروسية، وإظهار مجموعة من نماذج الاستوكاستك تنتج مجموعات متنوعة من الجمل التي تم إنشاؤها أثناء الاستفيؤ بجودة مماثلة لنماذج أحدث من النماذج.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا