ترغب بنشر مسار تعليمي؟ اضغط هنا

كشف حالات الإنتحال في النصوص المدونة باللغة العربية بالإعتماد على السلاسل اللغوية

Automatic detection of plagiarism in Arabic documents based on lexical chains

832   1   0   0.0 ( 0 )
 تاريخ النشر 2011
  مجال البحث الهندسة المعلوماتية
والبحث باللغة العربية
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يندرج هذا البحث في إطار الكشف الآلي لعمليات الإنتحال في النصوص المدوّنة باللغة العربية وتقدّم هذه الورقة طريقة مبتكرة تعتمد على استخراج الكلمات الهامة في النص المراد كشفه ومن ثمّ تكوين سلاسل لغوية حسب تواترها في النص. وباستعمال محركات البحث يمكن التثبت من وجود هذه السلاسل اللغوية في نصوص أخرى. في مرحلة ثانية قمنا باستعمال الترجمة الآلية للسلاسل اللغوية قصد استخراج السلاسل المرادفة باللغة الإنجليزية ومن ثمّ استعمال محركات البحث لاستخراج النصوص المدوّنة باللغة الإنجليزية والتي تتطابق مع السلاسل بعد ترجمتها. وتقدّم هذه الورقة العلمية برنامج الكاشف وهو برنامج لكشف حالات الإنتحال وقد قمنا بتقييم البرنامج على مدونة من النصوص العربية وأبرزت النتائج كفاءة الطريقة المتبعة



المراجع المستخدمة
Belguith L., Baccour L., Mourad G., “Segmentation de textes arabes basée sur l'analyse contextuelle des signes de ponctuations et de certaines particules”, Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles TALN’2005, , Vol. 1, p. 451–456.Dourdan France, 6–10, Juin 2005.
Morris, J., Hirst G., “Lexical cohesion computed by thesaural relations as an indicator of the structure of text”. in Computational Linguistics 17(1): pp. 21 43, 1991
Seaward L., Matwin S., Intrinsic Plagiarism Detection using Complexity Analysis”, in PAN'09, pp. 56-61, 2009.
قيم البحث

اقرأ أيضاً

قدم هذا البحث دراسة مرجعية عن الخوارزميات و النظم المتوافرة لكشف الانتحال، إِذ صمم و بني تطبيق لكشف الانتحال باستخدام محركات البحث المتوافرة على الشبكة العنكبوتية. إن مسألة كشف الانتحال في الوثائق المكتوبة باللغات الطبيعية هي مسألة معقدة و تتعلق بخصا ئص اللغة الطبيعية المعنية نفسها. يوجد العديد من الخوارزميات المستخدمة لكشف الانتحال في اللغات الطبيعية التي تقسم بشكل عام إلى صنفين رئيسين هما خوارزميات المقارنة بين الملفات عن طريق بصمات الملفات، و خوارزميات مقارنة محتوى الملفات التي تتضمن خوارزميات مقارنة السلاسل النصية و خوارزميات مقارنة البنى الشجرية للملفات. تعتمد نظم كشف الانتحال على نوع محدد أو مزيج من خوارزميات كشف الانتحال؛ و ذلك للحصول على نظم كشف انتحال فعالة (سريعة و دقيقة). طور في هذا العمل نظام لكشف الانتحال باستخدام محرك البحث Bing و قد استخدمت خوارزمية تعتمد على خصائص اللغة،باستخدام نظرية بنية الكلام البلاغية (Rhetorical Structure Theory ).
ساهم تقدم تقنية الويب والمعلومات في النمو السريع للمكتبات الرقمية وأدوات ترجمة الآلات التلقائية والتي تقوم بسهولة بترجمة النصوص من لغة إلى أخرى. وقد زادت هذه المحتوى في الوصول إلى لغات مختلفة، مما يؤدي إلى أداء الانتحال المترجم بسهولة، يشار إليها باس م الانتحال عبر اللغة ". التعرف على الانتحال بين النصوص بلغات مختلفة هو أكثر تحديا من تحديد الانتحال داخل وجعة مكتوبة بنفس اللغة. تقترح هذه الورقة تقنية جديدة لتعزيز اكتشاف الانتحال باللغة الإنجليزية والعربية على مستوى الجملة. تستند هذه التقنية إلى استخراج ميزة دلالية ونقصية باستخدام ترتيب Word و Word AdgetDing و MIGNIMENT مع ترميزات متعددة اللغات. يتم بعد ذلك استخدام هذه الميزات ومجمديها مع خوارزميات مختلفة لتعلم الآلات (ML) من أجل المساعدة في تصنيف الجمل كإخلاء إما مكسوين أو غير متسائل. تم نشر النهج المقترح وتقييمه باستخدام مجموعات البيانات المقدمة في Semeval-2017. يوضح تحليل البيانات التجريبية المستخدمة في استخدام الميزات المستخرجة ومجموعاتها مع مختلف منصات ML، تحقق نتائج واعدة.
نقدم في هذا البحث خوارزمية لتجميع نصوص اللغة العربية. حيث نفذنا الخوارزمية على 5 أنطولوجيات عبر برنامج بلغة الجافا، ثم عالجنا النصوص بحيث حصلنا على 338667 مفردة مع أوزانها المقابلة لكل أنطولوجيا. و قد أثبتت الخوارزمية فعاليتها في تحسين أداء المصنفا ت التي تم تجربتها في هذه الدراسة و هي (NB,SVM) مقارنة مع نتائج مصنفات اللغة العربية السابقة.
وصفنا نظامنا المقدم لهذه المهمة المشتركة 2021 بشأن السخرية والكشف عن المعنويات باللغة العربية (أبو فرحة وآخرون، 2021).لقد تناولنا كل من المجموعات الفرعية، وهما اكتشاف السخرية (الفرعية 1) وتحليل المعرفات (SubTask 2).استخدمنا نماذج تمثيل نصية محكومة لل حالة من بين الفنون وتصنفها بشكل جيد وفقا لمهمة المصب في متناول اليد.كهدودي أول، استخدمنا بيرت متعددة اللغات من Google ثم المتغيرات العربية الأخرى: أرابيرت وأشرر وماربيرت.وجدت النتائج تظهر أن Marbert تفوقت على جميع النماذج المذكورة مسبقا بشكل عام، إما على التراكب الفرعي 1 أو Subtask 2.
الهدف الأساسي من هذا البحث دعم تركيب الكلام من نصوص باللغة العربية بتنغيم طبيعي؛ و ذلك بالاعتماد على تحليل لغوي للنصوص المراد تركيبها و توليد قواعد تنغيم يجري استنتاجها من تحليل إشارات مسجلة لمختلف أنواع الجمل باللغة العربية. جرى، بالاستعانة بخبير ل غوي، حصر مختلف أنواع الجمل الخبرية و الإنشائية باللغة العربية، ثم إنشاء مدونة نصية تتضمن معظم أنواع هذه الجمل. تضمنت المدونة قرابة 2500 جملة. بعد ذلك جرى تسجيل هذه الجمل صوتياً بالتنغيم الطبيعي ثم بسرد مصطنع خال من التنغيم. في مرحلة لاحقة جرى تحليل إشارات كل نوع من أنواع الجمل بالتنغيم الطبيعي و بالنسخة الخالية من التنغيم لنمذجة أثر التنغيم الطبيعي في محددات الإشارة، و وضع قواعد لتوليد هذا التنغيم آلياً. نعرض في هذا البحث نتائج هذه الدراسة على جمل النفي الخبرية و تطبيق النتائج على كلام مركب باستخدام الأداة المفتوحة المصدر MBROLA. كما يمكن استخدام هذه النتائج مع أي مركب كلام عربي بموسطات، نأمل مستقبلاً، تنفيذ . توليد التنغيم على مركب كلام بأنصاف مقاطع يجري تطويره حالياً، في المعهد العالي للعلوم التطبيقية و التكنولوجيا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا