ترغب بنشر مسار تعليمي؟ اضغط هنا

التنقيب في النصوص العلمية

Scientific Text Mining

3049   1   92   0 ( 0 )
 تاريخ النشر 2018
  مجال البحث الهندسة المعلوماتية
والبحث باللغة العربية
 تمت اﻹضافة من قبل Amal AlNouri




اسأل ChatGPT حول البحث

يهدف التنقيب في النصوص بشكل عام إلى تحليل النصوص لاستخلاص معارف ذات جودة عالية من عدة مصادر نصية، والربط فيما بينها لتشكيل حقائق وفرضيات جديدة. تعد الأوراق البحثية التمثيل الأكثر اكتمالاً للمعرفة البشرية. وقد ساهمت حركة "الوصول المفتوح" إلى الأوراق البحثية، بالإضافة إلى ازدهار حقل التعلم الآلي في الآونة الأخيرة وتوفر الأدوات البرمجية والعتادية بكلف منخفضة نسبياً، بتداعي الحواجز المعيقة لعملية التنقيب في نصوص الأوراق البحثية. في تتمة هذه الدراسة سنستعرض مجموعة من أساليب التنقيب في النصوص العلمية من حيث أهميتها، مجالات استخدامها، وطرق تطبيقها.


ملخص البحث
يتناول هذا البحث موضوع التنقيب في النصوص العلمية، ويهدف إلى تحليل النصوص لاستخلاص معارف ذات جودة عالية من عدة مصادر نصية وربطها لتشكيل حقائق وفرضيات جديدة. يركز البحث على الأوراق البحثية كتمثيل للمعرفة البشرية، ويستفيد من حركة الوصول المفتوح والتعلم الآلي لتسهيل عملية التنقيب. تتضمن أهداف التنقيب دعم الوصول الاستكشافي للأدب العلمي، تحليل ومقارنة نتائج الأبحاث، تلخيص نتائج الأبحاث، أتمتة مراجعة الأدب العلمي، والإجابة عن الأسئلة العلمية. يناقش البحث أيضًا طرق تلخيص النصوص العلمية، سواء كانت Extractive أو Abstractive، ويستعرض مجموعة من الأبحاث في هذا المجال. كما يتناول البحث استخراج الصور التوضيحية والجداول من الأوراق البحثية، ويقدم خوارزميات لتحديد هذه العناصر وإسناد المسميات التوضيحية لها. بالإضافة إلى ذلك، يناقش البحث تحديد الاستشهادات المهمة في الأدبيات العلمية، ويقترح نماذج لتصنيف الاستشهادات بناءً على أهميتها. أخيرًا، يقدم البحث نظام Citeomatic كأداة لمراجعة الأدب العلمي، ويشرح كيفية تدريب النموذج للتنبؤ بالاستشهادات ذات المغزى.
قراءة نقدية
دراسة نقدية: يعتبر هذا البحث شاملاً ومفيداً في مجال التنقيب في النصوص العلمية، حيث يغطي مجموعة واسعة من المواضيع بدءًا من تلخيص الأوراق البحثية وصولاً إلى استخراج الصور والجداول وتحديد الاستشهادات المهمة. ومع ذلك، يمكن أن يكون هناك بعض التحديات في تطبيق الخوارزميات المقترحة على نطاق واسع، خاصةً فيما يتعلق بدقة استخراج الصور والجداول من تنسيقات مختلفة للأوراق البحثية. كما أن الاعتماد الكبير على الأدوات البرمجية مثل Poppler وPDFBox قد يحد من إمكانية التوسع في تطبيق هذه الخوارزميات على أنواع أخرى من الوثائق. بالإضافة إلى ذلك، يمكن تحسين النموذج المقترح لتحديد الاستشهادات المهمة من خلال تضمين مزيد من البيانات التدريبية المتنوعة لضمان دقة أعلى في التصنيف. بشكل عام، يقدم البحث إسهامات قيمة في مجال التنقيب في النصوص العلمية، ولكنه يحتاج إلى مزيد من التحسينات لتطبيقه بشكل فعال على نطاق واسع.
أسئلة حول البحث
  1. ما هي الأهداف الرئيسية لعملية التنقيب في النصوص العلمية؟

    الأهداف الرئيسية تشمل دعم الوصول الاستكشافي للأدب العلمي، تحليل ومقارنة نتائج الأبحاث، تلخيص نتائج الأبحاث، أتمتة مراجعة الأدب العلمي، والإجابة عن الأسئلة العلمية.

  2. ما الفرق بين طرق تلخيص النصوص العلمية Extractive وAbstractive؟

    الطريقة Extractive تعتمد على نسخ أجزاء من الوثيقة لتشكيل الملخص، بينما الطريقة Abstractive تولد ملخصاً جديداً قد يحتوي على عبارات لا تظهر في الوثيقة الأصلية.

  3. ما هي الخوارزميات المستخدمة لاستخراج الصور والجداول من الأوراق البحثية؟

    الخوارزميات تشمل تحديد بدايات نصوص المسميات التوضيحية، تحديد مناطق الكتل النصية والرسومية، وإسناد المسمى التوضيحي إلى منطقة الرسم التوضيحي الذي يشير إليه.

  4. كيف يتم تحديد الاستشهادات المهمة في الأدبيات العلمية؟

    يتم تحديد الاستشهادات المهمة من خلال نماذج تصنيف تعتمد على سمات مثل عدد الاستشهادات المباشرة وغير المباشرة، موقع الاقتباس في الورقة، وجود عبارات تدل على أهمية العمل، وظهور الاقتباس في أشكال توضيحية أو جداول.


المراجع المستخدمة
Petr Knoth, and Phil Gooch, A. (22 September 2015). An Introduction to Text Mining Research Papers [PDF]. Retrieved from https://www.uksg.org/sites/uksg.org/files/Text-Mining-Research-Papers.pptx.pdf.
(Visser, W. T., and M. B. Wieling. "Sentence-based summarization of scientific documents." The design and implementation of an online available automatic summarizer. Report, last retrieved Nov. 29th (2007).
Qazvinian, Vahed, and Dragomir R. Radev. "Scientific paper summarization using citation summary networks." Proceedings of the 22nd International Conference on Computational Linguistics-Volume 1. Association for Computational Linguistics, 2008
, Horacio, and Francesco Ronzano. "Trainable citation-enhanced summarization of scientific articles." Proceedings of the Joint Workshop on Bibliometric-enhanced Information Retrieval and Natural Language Processing for Digital Libraries (BIRNDL). 2016
(Collins, Ed, Isabelle Augenstein, and Sebastian Riedel. "A Supervised Approach to Extractive Summarization of Scientific Papers." arXiv preprint arXiv:1706.03946 (2017)
Clark, Christopher Andreas, and Santosh Kumar Divvala. "Looking Beyond Text: Extracting Figures, Tables and Captions from Computer Science Papers." AAAI Workshop: Scholarly Big Data. 2015
Clark, Christopher, and Santosh Divvala. "PDFFigures 2.0: Mining figures from research papers." Digital Libraries (JCDL), 2016 IEEE/ACM Joint Conference on. IEEE, 2016
Valenzuela, Marco, Vu Ha, and Oren Etzioni. "Identifying Meaningful Citations." AAAI Workshop: Scholarly Big Data. 2015
“Citeomatic: Automated Literature Review”. The Allen Institute for Artificial Intelligence, 2017. Retrieved from http://allenai.org/semantic-scholar/citeomatic
قيم البحث

اقرأ أيضاً

التطورات في احتساب دقة الموقع الجغرافي والحوسبة المتنقلة ولدت كمية ضخمة من البيانات عن المسارات المكانية والتي تمثل المسارات الحركية لأغراض متنوعة متحركة مثل: اشخاص، مركبات، حيوانات، تم طرح العديد من التقنيات لمعالجة وادارة وتعدين هذه المعلومات في ال عقود الماضية من اجل تعزيز مجال واسع من التطبيقات، في هذا المقال، سنجري بشكل رئيسي مسحاً منهجياً على دراسة تعدين البيانات، سنقدم نظرة عامة عن هذا المجال والعناوين الرئيسية عن مواضيع البحث، وذلك باتباع خطة تبدأمن اشتقاق بيانات المسار ومن ثم تجهيزها (preprocessing) الى ادارتها لتنتهي بعدد من مهام التعدين ( تعدين انماط المسارات، الكشف الخارجي، تصنيف المسار)، هذه الدراسة تبحث في الاتصالات، الارتباطات، والاختلافات بين التقنيات الموجودة، كما يقدم الطرق التي تحول المسارات الى بنية بيانات أخرى، مثل: رسومات بيانية، مصفوفات، tensors ، حيث يمكننا زيادة عدد تقنيات التعدين والتعلم الآلي التي يمكن تطبيقها.
أصبحت تقنية التنقيب عن المعلومات واسعة الانتشار في العديد من المجالات الحياتية المهمة مثل استخدام البيانات التاريخية للتنبؤ بنجاح إحدى الحملات التسويقية أو البحث عن أنماط معينة في المعاملات المالية لاكتشاف الأنشطة غير القانونية، ومن هنا كانت مجرد مسأ لة وقت للوصول إلى مجال هام يسهم في ضمان أمن الحاسوب. يقدم هذا البحث مجموعة من الجهود البحثية في مجال استخدام تقنية التنقيب عن المعلومات في الأمن الالكتروني.
في هذا البحث تٌستخدم تقنيات استكشاف الصور كالتجميع و قواعد الاستكشاف لاستكشاف المعرفة من الصورة و أيضاً يستخدم دمج الميزات متعددة الوسائط مثل البصرية و النصية.
تقدم هذه الورقة البحثية مقارنة لمجموعة من خوارزميات التنقيب في البيانات Data Mining Algorithms فيما يتعلق بتحليل حوادث المرور، انطلاقاً من مرحلة إدخال البيانات، و ذلك من خلال تحليل بنية التقارير الإحصائية الموجودة في فرع مرور اللاذقية وصولاً إلى مرحل ة التنقيب في البيانات التي تستطيع إيجاد آلية قادرة على دراسة العوامل التي تلعب دوراً في حادث المرور بذكاء من أجل الربط و تحديد مدى العلاقة بينها و أهميتها في تسبب الحادث المروري، و ذلك بعد تصميم بنية مستودع البيانات على أساس قاعدة البيانات التي تم بناؤها لتخزين المعلومات، تم في هذا البحث ذكر مجموعة من النماذج التي تم اختبارها و التي تشكل عينة عن الاختبارات التي بنيت عليها نتائج البحث.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا