ترغب بنشر مسار تعليمي؟ اضغط هنا

كشف الانتحال في اللغة العربية باستخدام نظرية بنية الكلام البلاغية

Plagiarism Detection in Arabic Language using Rhetorical Structure Theory

2179   3   70   0 ( 0 )
 تاريخ النشر 2014
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

قدم هذا البحث دراسة مرجعية عن الخوارزميات و النظم المتوافرة لكشف الانتحال، إِذ صمم و بني تطبيق لكشف الانتحال باستخدام محركات البحث المتوافرة على الشبكة العنكبوتية. إن مسألة كشف الانتحال في الوثائق المكتوبة باللغات الطبيعية هي مسألة معقدة و تتعلق بخصائص اللغة الطبيعية المعنية نفسها. يوجد العديد من الخوارزميات المستخدمة لكشف الانتحال في اللغات الطبيعية التي تقسم بشكل عام إلى صنفين رئيسين هما خوارزميات المقارنة بين الملفات عن طريق بصمات الملفات، و خوارزميات مقارنة محتوى الملفات التي تتضمن خوارزميات مقارنة السلاسل النصية و خوارزميات مقارنة البنى الشجرية للملفات. تعتمد نظم كشف الانتحال على نوع محدد أو مزيج من خوارزميات كشف الانتحال؛ و ذلك للحصول على نظم كشف انتحال فعالة (سريعة و دقيقة). طور في هذا العمل نظام لكشف الانتحال باستخدام محرك البحث Bing و قد استخدمت خوارزمية تعتمد على خصائص اللغة،باستخدام نظرية بنية الكلام البلاغية (Rhetorical Structure Theory ).


ملخص البحث
تتناول هذه الورقة البحثية موضوع كشف الانتحال في النصوص المكتوبة باللغة العربية باستخدام نظرية بنية الكلام البلاغية (Rhetorical Structure Theory). تقدم الدراسة مراجعة شاملة للخوارزميات والنظم المتاحة لكشف الانتحال، مع التركيز على خوارزميات مقارنة بصمات الملفات وخوارزميات مقارنة محتوى الملفات. تم تطوير نظام يعتمد على محرك البحث Bing وخوارزمية تستند إلى خصائص اللغة باستخدام نظرية بنية الكلام البلاغية. تم اختبار النظام على عينة من الملفات العلمية المكتوبة باللغة العربية، وأظهرت النتائج فعالية النظام في كشف الانتحال بنسبة دقة تصل إلى 75%. تتضمن الورقة شرحًا مفصلًا لنظرية بنية الكلام البلاغية وتطبيقاتها في معالجة النصوص، بالإضافة إلى تصميم النظام والخوارزمية المستخدمة في الكشف عن الانتحال. كما تقدم الورقة مقارنة بين الخوارزميات المختلفة المستخدمة في كشف الانتحال وتوضح مزايا وعيوب كل منها.
قراءة نقدية
دراسة نقدية: على الرغم من أن هذه الورقة تقدم إسهامًا مهمًا في مجال كشف الانتحال في النصوص العربية باستخدام نظرية بنية الكلام البلاغية، إلا أن هناك بعض النقاط التي يمكن تحسينها. أولاً، كان من الأفضل توسيع نطاق الاختبارات لتشمل نصوصًا من مجالات مختلفة وليس فقط البحوث العلمية، وذلك لضمان شمولية وفعالية النظام في مختلف السياقات. ثانيًا، لم يتم مقارنة النظام المطور بشكل مباشر مع نظم كشف الانتحال الأخرى المتاحة على الشبكة العنكبوتية، مما يجعل من الصعب تقييم مدى تفوق النظام الجديد. ثالثًا، يمكن تحسين النظام بإدخال البعد الدلالي في خوارزمية المقارنة بين الموصلات، وذلك باستخدام قاموس مفاهيمي لتحسين دقة الكشف عن الانتحال. وأخيرًا، كان من المفيد تقديم تحليل أكثر تفصيلاً للنتائج وتوضيح الأسباب وراء عدم كشف بعض حالات الانتحال.
أسئلة حول البحث
  1. ما هي الخوارزميات الرئيسية المستخدمة في كشف الانتحال وفقًا لهذه الورقة؟

    الخوارزميات الرئيسية هي خوارزميات بصمة الملف (Fingerprinting) وخوارزميات مقارنة محتوى الملفات (Content Comparisons).

  2. ما هي نسبة الدقة التي حققها النظام المطور في كشف الانتحال؟

    حقق النظام المطور نسبة دقة تصل إلى 75% في كشف الانتحال.

  3. ما هي النظرية المستخدمة في تطوير خوارزمية كشف الانتحال في هذه الورقة؟

    تم استخدام نظرية بنية الكلام البلاغية (Rhetorical Structure Theory) في تطوير خوارزمية كشف الانتحال.

  4. ما هي التحسينات المستقبلية المقترحة للنظام المطور في هذه الورقة؟

    من التحسينات المستقبلية المقترحة إدخال البعد الدلالي في خوارزمية المقارنة بين الموصلات باستخدام قاموس مفاهيمي لتحسين دقة الكشف عن الانتحال.


المراجع المستخدمة
Shizhong Wu; Yongle Hao; Xinyu Gao; Baojiang Cui; Ce Bian, Homology Detection Based on Abstract Syntax Tree Combined Simple Semantics Analysis, Web Intelligence and Intelligent Agent Technology (WI-IAT), vol.3, pp.410-414, 2010
Vinod K.R., Sandhya.S, Sathish Kumar D, Harani A, David Banji, Otilia JF Banji, Plagiarism-history detection and prevention, Journal for drugs and medicines, Vol.3, Issue:1, pp.1- 4, 2011
Al-Khatib B., Aspel A. ,Saleh M., fares M.، Hamad M.M., plagiarism detection using the web, Damascus university,informatics engineering college, 2007
Al-Sanie W., Towards an infrastructure for Arabic text Summarization using Rhetorical Structure Theory, master thesis , king Saud University, K.S.A., 2005
[Bing , API Basics. [online] Available at: http://www.bing.com/developers/s/APIBasics.ht ml [Accessed 15-October 2011
قيم البحث

اقرأ أيضاً

يقدم هذا البحث دراسة مرجعية عن الخوارزميات و الأنظمة المتوفرة لكشف الانتحال ، و يقوم بتصميم و بناء تطبيق لكشف الانتحال في الأبحاث الطبية بتوظيف الأنطولوجيات الطبية العالمية المتوفرة على الشبكة العنكبوتية . إن مسألة كشف الانتحال في الأبحاث الطبية الم كتوبة باللغات الطبيعية هي مسألة معقدة و تتعلق بالمجال الدقيق للابحاث الطبية . يوجد العديد من الخوارزميات المستخدمة لكشف الانتحال في اللغات الطبيعية و التي تقسم بشكل عام إلى صنفين رئيسين هما خوارزميات المقارنة بين الملفات عن طريق بصمات الملفات ، و خوارزميات مقارنة محتوى الملفات و التي تتضمن خوارزميات مقارنة السلاسل النصية و خوارزميات مقارنة البنى الشجرية للملفات . حديثا تم البحث في مجال خوارزميات كشف الانتحال ذات البعد الدلالي فتم تطوير خوارزميات كشف الانتحال الدلالية المعتمدة على تحليل نماذج الاقتباس في الأبحاث العلمية . تمَ في هذا العمل تطوير نظام لكشف الانتحال باستخدام محرك البحث Bing ، حيث تم استخدام خوارزمية تعتمد على استخدام و توظيف نوعين من الانطولوجيات و هي الأنطولوجيات العامة مثل وورد نت ( WordNet ) و الأنطلوجيات الطبية العالمية أشهرها أنطولوجيا الأمراض Diseases ontology التي تحتوي على توصيف الأمراض و خصائصها و تعريفها و اشتقاق الأمراض من بعضها.
ساهم تقدم تقنية الويب والمعلومات في النمو السريع للمكتبات الرقمية وأدوات ترجمة الآلات التلقائية والتي تقوم بسهولة بترجمة النصوص من لغة إلى أخرى. وقد زادت هذه المحتوى في الوصول إلى لغات مختلفة، مما يؤدي إلى أداء الانتحال المترجم بسهولة، يشار إليها باس م الانتحال عبر اللغة ". التعرف على الانتحال بين النصوص بلغات مختلفة هو أكثر تحديا من تحديد الانتحال داخل وجعة مكتوبة بنفس اللغة. تقترح هذه الورقة تقنية جديدة لتعزيز اكتشاف الانتحال باللغة الإنجليزية والعربية على مستوى الجملة. تستند هذه التقنية إلى استخراج ميزة دلالية ونقصية باستخدام ترتيب Word و Word AdgetDing و MIGNIMENT مع ترميزات متعددة اللغات. يتم بعد ذلك استخدام هذه الميزات ومجمديها مع خوارزميات مختلفة لتعلم الآلات (ML) من أجل المساعدة في تصنيف الجمل كإخلاء إما مكسوين أو غير متسائل. تم نشر النهج المقترح وتقييمه باستخدام مجموعات البيانات المقدمة في Semeval-2017. يوضح تحليل البيانات التجريبية المستخدمة في استخدام الميزات المستخرجة ومجموعاتها مع مختلف منصات ML، تحقق نتائج واعدة.
في هذه الورقة العلمية نستعرض و نسرد ، المزايا و القيود المفروضة على التقنيات الفعالة المهمة التي تم توظيفها و تطويرها لكشف الانتحال في النصوص . و قد تبين أن العديد من الأساليب المقترحة لكشف الانتحال لديها نقاط ضعف و عدم الكشف عن بعض الأنواع من عمليات الانتحال. و تقوم هذه الورقة بدراسة مسحية حول كشف الانتحال بما في ذلك العديد من الموضوعات المهمة في كشف الانتحال، و هي تعريف الانتحال، و منع الانتحال و كشف الانتحال ، و أنظمة كشف الانتحال، و عمليات كشف الانتحال و بعض تقنيات كشف الانتحال الحالية. تقارن هذه الورقة بين مختلف خوارزميات كشف الانتحال، و تظهر نقاط الضعف، و نقاط القوة، و توصف قوة خوارزميات كشف الانتحال الدلالية، و تظهر فعالية هذه الخوارزميات في الكشف عن حالات الانتحال لا تستطيع خوارزميات كشف الانتحال الأخرى اكتشافها، حيث أنه تم تطوير خوارزميات كشف الانتحال الدلالية للتخلص من نقاط الضعف التقليدية التي تمتلها جميع خوارزميات كشف الانتحال الأخرى.
يندرج هذا البحث في إطار الكشف الآلي لعمليات الإنتحال في النصوص المدوّنة باللغة العربية وتقدّم هذه الورقة طريقة مبتكرة تعتمد على استخراج الكلمات الهامة في النص المراد كشفه ومن ثمّ تكوين سلاسل لغوية حسب تواترها في النص. وباستعمال محركات البحث يمكن التث بت من وجود هذه السلاسل اللغوية في نصوص أخرى. في مرحلة ثانية قمنا باستعمال الترجمة الآلية للسلاسل اللغوية قصد استخراج السلاسل المرادفة باللغة الإنجليزية ومن ثمّ استعمال محركات البحث لاستخراج النصوص المدوّنة باللغة الإنجليزية والتي تتطابق مع السلاسل بعد ترجمتها. وتقدّم هذه الورقة العلمية برنامج الكاشف وهو برنامج لكشف حالات الإنتحال وقد قمنا بتقييم البرنامج على مدونة من النصوص العربية وأبرزت النتائج كفاءة الطريقة المتبعة
نحن نصف نظامنا الذي تم تصنيفه في المرتبة الأولى في مهمة الكشف عن الكلام في الأمل (HSD) ورابعا في مهمة تشارك في الهجوم (OLI)، سواء في لغة التاميل.الهدف من HSD و OLI هو تحديد ما إذا كان تعليق أو منشور مختلط من التعليمات البرمجية يحتوي على خطاب نأمل أو محتوى مسيحي على التوالي.نقوم مسبقا بتدريب نموذج روبرتا المستندة إلى المحولات باستخدام البيانات المختلطة التي تم إنشاؤها بشكل عام واستخدامها في مجموعة جنبا إلى جنب مع نموذج Ulmfit المدرب مسبقا متاحا من Inltk.
التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا