يقدم هذا البحث دراسة مرجعية عن الخوارزميات و الأنظمة المتوفرة لكشف الانتحال ، و يقوم بتصميم و بناء تطبيق لكشف الانتحال في الأبحاث الطبية بتوظيف الأنطولوجيات الطبية العالمية المتوفرة على الشبكة العنكبوتية .
إن مسألة كشف الانتحال في الأبحاث الطبية المكتوبة باللغات الطبيعية هي مسألة معقدة و تتعلق بالمجال الدقيق للابحاث الطبية .
يوجد العديد من الخوارزميات المستخدمة لكشف الانتحال في اللغات الطبيعية و التي تقسم بشكل عام إلى صنفين رئيسين هما خوارزميات المقارنة بين الملفات عن طريق بصمات الملفات ، و خوارزميات مقارنة محتوى الملفات و التي تتضمن خوارزميات مقارنة السلاسل النصية و خوارزميات مقارنة البنى الشجرية للملفات .
حديثا تم البحث في مجال خوارزميات كشف الانتحال ذات البعد الدلالي فتم تطوير خوارزميات كشف الانتحال الدلالية المعتمدة على تحليل نماذج الاقتباس في الأبحاث العلمية .
تمَ في هذا العمل تطوير نظام لكشف الانتحال باستخدام محرك البحث Bing ، حيث تم استخدام خوارزمية تعتمد على استخدام و توظيف نوعين من الانطولوجيات و هي الأنطولوجيات العامة مثل وورد نت ( WordNet ) و الأنطلوجيات الطبية العالمية أشهرها أنطولوجيا الأمراض Diseases ontology التي تحتوي على توصيف الأمراض و خصائصها و تعريفها و اشتقاق الأمراض من بعضها.
This paper presents a reference study of available algorithms for plagiarism
detection and it develops semantic plagiarism detection algorithm for plagiarism detection
in medical research papers by employing the Medical Ontologies available on the World
Wide Web.
The issue of plagiarism detection in medical research written in natural languages is
a complex issue and related exact domain of medical research.
There are many used algorithms for plagiarism detection in natural language, which
are generally divided into two main categories, the first one is comparison algorithms
between files by using fingerprints of files, and files content comparison algorithms, which
include strings matching algorithms and text and tree matching algorithms.
Recently a lot of research in the field of semantic plagiarism detection algorithms
and semantic plagiarism detection algorithms were developed basing of citation analysis
models in scientific research.
In this research a system for plagiarism detection was developed using “Bing” search
engine, where tow type of ontologies used in this system, public ontology as wordNet and
many standard international ontologies in medical domain as Diseases ontology which
contains a descriptions about diseases and definitions of it and the derivation between
diseases.
Artificial intelligence review:
Research summary
يقدم هذا البحث دراسة مرجعية عن الخوارزميات والأنظمة المتوفرة لكشف الانتحال، ويقوم بتصميم وبناء تطبيق لكشف الانتحال في الأبحاث الطبية بتوظيف الأنطولوجيات الطبية العالمية المتوفرة على الشبكة العنكبوتية. يتناول البحث مشكلة كشف الانتحال في الأبحاث الطبية المكتوبة باللغات الطبيعية ويعرض تعقيداتها. يتم تقسيم الخوارزميات المستخدمة إلى صنفين رئيسيين: خوارزميات بصمة الملفات وخوارزميات مقارنة محتوى الملفات. كما يناقش البحث خوارزميات كشف الانتحال ذات البعد الدلالي التي تعتمد على تحليل نماذج الاقتباس. تم تطوير نظام لكشف الانتحال باستخدام محرك البحث Bing، حيث تم استخدام خوارزمية تعتمد على نوعين من الأنطولوجيات: الأنطولوجيات العامة مثل وورد نت، والأنطولوجيات الطبية مثل أنطولوجيا الأمراض. يهدف البحث إلى التغلب على نقاط الضعف في الخوارزميات التقليدية من خلال استخدام الأنطولوجيات الدلالية. تم اختبار الخوارزمية على 200 ورقة علمية وأظهرت نتائج فعالة في كشف الانتحال.
Critical review
دراسة نقدية: على الرغم من أن البحث يقدم حلاً مبتكراً لكشف الانتحال في الأبحاث الطبية باستخدام الأنطولوجيات، إلا أنه يواجه بعض التحديات. أولاً، يعتمد النظام بشكل كبير على الأنطولوجيات المتاحة على الشبكة العنكبوتية، والتي قد تكون غير متكاملة أو غير محدثة بشكل دوري. ثانياً، يقتصر النظام على الأبحاث المكتوبة باللغة الإنجليزية فقط، مما يقلل من فعاليته في البيئات متعددة اللغات. ثالثاً، لا يتناول البحث بشكل كافٍ كيفية التعامل مع الأشكال والجداول في النصوص، والتي قد تحتوي على معلومات دلالية هامة. وأخيراً، قد يكون استخدام محرك البحث Bing غير كافٍ للحصول على جميع الأوراق العلمية ذات الصلة، مما قد يؤثر على دقة النظام.
Questions related to the research
-
ما هي الأنطولوجيات المستخدمة في هذا البحث لكشف الانتحال؟
تم استخدام الأنطولوجيات العامة مثل وورد نت، والأنطولوجيات الطبية مثل أنطولوجيا الأمراض، أنطولوجيا التشريح، أنطولوجيا الجينات، أنطولوجيا رؤوس الموضوعات الطبية، وأنطولوجيا العلوم الطبية العامة.
-
ما هي الخوارزميات التقليدية لكشف الانتحال التي تم مناقشتها في البحث؟
تم مناقشة خوارزميات بصمة الملفات وخوارزميات مقارنة محتوى الملفات، والتي تشمل خوارزميات مقارنة السلاسل النصية وخوارزميات مقارنة البنى الشجرية.
-
ما هي نقاط الضعف في الخوارزميات التقليدية لكشف الانتحال؟
تعاني الخوارزميات التقليدية من مشاكل مثل عدم القدرة على كشف الانتحال عند إعادة ترتيب الكلمات أو استبدالها بمرادفات، وتأثرها بالغموض الموجود في اللغات الطبيعية، وصعوبة تحديد طول السلسلة المناسب للمقارنة.
-
كيف تم اختبار فعالية الخوارزمية المطورة في هذا البحث؟
تم اختبار الخوارزمية على 200 ورقة علمية ضمن اختصاص الطب، وتم انتحال العديد من الأوراق بشكل يدوي بطرق مختلفة. تم حساب فعالية الخوارزمية باستخدام معامل الحساسية، وأظهرت النتائج نسبة حساسية عالية في كشف حالات الانتحال.
References used
Vinod K.R.،Sandhya.S،Sathish Kumar D،Harani A،David Banji and،Otilia JF Banji 2011 ، Plagiarism history ،detection and prevention, Hygeia, Vol.3-Issue.1-Page 1- 4
Maxim mozgovoy, enhancing computer-aided plagiarism , university of joensuu computer science and statistics dissertations 18
Schleimer, S., Wilkerson, D. S., & Aiken, A. (2003). Winnowing: Local Algorithms for Document Fingerprinting. Proceedings of the 2003 ACM SIGMOD International Conference on on Management of Data - SIGMOD ’03, 76–85
This paper presents a review of available algorithms and plagiarism detection systems، and an
implementation of Plagiarism Detection System using available search engines on the web.
Plagiarism detection in natural language documents is a complicat
In order to provide high-quality care, health professionals must efficiently identify the presence, possibility, or absence of symptoms, treatments and other relevant entities in free-text clinical notes. Such is the task of assertion detection - to
In this paper we review and list, the advantages and limitations of the significant
effective techniques employed or developed in text plagiarism detection. It was found that
many of the proposed methods for plagiarism detection have a weakness poi
We consider the problem of learning to simplify medical texts. This is important because most reliable, up-to-date information in biomedicine is dense with jargon and thus practically inaccessible to the lay audience. Furthermore, manual simplificati
Extracting structured information from medical conversations can reduce the documentation burden for doctors and help patients follow through with their care plan. In this paper, we introduce a novel task of extracting appointment spans from medical