ترغب بنشر مسار تعليمي؟ اضغط هنا

انتشار الانتحال باللغة الإنجليزية والعربية

English-Arabic Cross-language Plagiarism Detection

480   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

ساهم تقدم تقنية الويب والمعلومات في النمو السريع للمكتبات الرقمية وأدوات ترجمة الآلات التلقائية والتي تقوم بسهولة بترجمة النصوص من لغة إلى أخرى. وقد زادت هذه المحتوى في الوصول إلى لغات مختلفة، مما يؤدي إلى أداء الانتحال المترجم بسهولة، يشار إليها باسم الانتحال عبر اللغة ". التعرف على الانتحال بين النصوص بلغات مختلفة هو أكثر تحديا من تحديد الانتحال داخل وجعة مكتوبة بنفس اللغة. تقترح هذه الورقة تقنية جديدة لتعزيز اكتشاف الانتحال باللغة الإنجليزية والعربية على مستوى الجملة. تستند هذه التقنية إلى استخراج ميزة دلالية ونقصية باستخدام ترتيب Word و Word AdgetDing و MIGNIMENT مع ترميزات متعددة اللغات. يتم بعد ذلك استخدام هذه الميزات ومجمديها مع خوارزميات مختلفة لتعلم الآلات (ML) من أجل المساعدة في تصنيف الجمل كإخلاء إما مكسوين أو غير متسائل. تم نشر النهج المقترح وتقييمه باستخدام مجموعات البيانات المقدمة في Semeval-2017. يوضح تحليل البيانات التجريبية المستخدمة في استخدام الميزات المستخرجة ومجموعاتها مع مختلف منصات ML، تحقق نتائج واعدة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

قدم هذا البحث دراسة مرجعية عن الخوارزميات و النظم المتوافرة لكشف الانتحال، إِذ صمم و بني تطبيق لكشف الانتحال باستخدام محركات البحث المتوافرة على الشبكة العنكبوتية. إن مسألة كشف الانتحال في الوثائق المكتوبة باللغات الطبيعية هي مسألة معقدة و تتعلق بخصا ئص اللغة الطبيعية المعنية نفسها. يوجد العديد من الخوارزميات المستخدمة لكشف الانتحال في اللغات الطبيعية التي تقسم بشكل عام إلى صنفين رئيسين هما خوارزميات المقارنة بين الملفات عن طريق بصمات الملفات، و خوارزميات مقارنة محتوى الملفات التي تتضمن خوارزميات مقارنة السلاسل النصية و خوارزميات مقارنة البنى الشجرية للملفات. تعتمد نظم كشف الانتحال على نوع محدد أو مزيج من خوارزميات كشف الانتحال؛ و ذلك للحصول على نظم كشف انتحال فعالة (سريعة و دقيقة). طور في هذا العمل نظام لكشف الانتحال باستخدام محرك البحث Bing و قد استخدمت خوارزمية تعتمد على خصائص اللغة،باستخدام نظرية بنية الكلام البلاغية (Rhetorical Structure Theory ).
نقدم HATEBERT، نموذج BERT الذي تم تدريبه على إعادة تدريب للكشف عن اللغة المسيئة باللغة الإنجليزية.تم تدريب النموذج على RAL-E، وهي مجموعة بيانات واسعة النطاق من تعليقات Reddit باللغة الإنجليزية من المجتمعات المحظورة لكونها مسيئة أو بغيضة حيث قمنا بإتا حتها للجمهور.نقدم نتائج مقارنة مفصلة بين نموذج اللغة المدرب مسبقا والنسخة المستقلة على ثلاث مجموعات بيانات باللغة الإنجليزية لمهام الهجومية والمسيئة ومهام الكشف عن الكلام.في جميع مجموعات البيانات، تتفوق HateBERT على نموذج بيرت العام.ونناقش أيضا مجموعة تجارب تقارن إمكانية نقل النماذج الصعبة في مجموعات البيانات، مما يشير إلى أن القدرة على التأثر بالتوافق مع الظواهر المشروحة.
في هذه الورقة العلمية نستعرض و نسرد ، المزايا و القيود المفروضة على التقنيات الفعالة المهمة التي تم توظيفها و تطويرها لكشف الانتحال في النصوص . و قد تبين أن العديد من الأساليب المقترحة لكشف الانتحال لديها نقاط ضعف و عدم الكشف عن بعض الأنواع من عمليات الانتحال. و تقوم هذه الورقة بدراسة مسحية حول كشف الانتحال بما في ذلك العديد من الموضوعات المهمة في كشف الانتحال، و هي تعريف الانتحال، و منع الانتحال و كشف الانتحال ، و أنظمة كشف الانتحال، و عمليات كشف الانتحال و بعض تقنيات كشف الانتحال الحالية. تقارن هذه الورقة بين مختلف خوارزميات كشف الانتحال، و تظهر نقاط الضعف، و نقاط القوة، و توصف قوة خوارزميات كشف الانتحال الدلالية، و تظهر فعالية هذه الخوارزميات في الكشف عن حالات الانتحال لا تستطيع خوارزميات كشف الانتحال الأخرى اكتشافها، حيث أنه تم تطوير خوارزميات كشف الانتحال الدلالية للتخلص من نقاط الضعف التقليدية التي تمتلها جميع خوارزميات كشف الانتحال الأخرى.
يقدم هذا البحث دراسة مرجعية عن الخوارزميات و الأنظمة المتوفرة لكشف الانتحال ، و يقوم بتصميم و بناء تطبيق لكشف الانتحال في الأبحاث الطبية بتوظيف الأنطولوجيات الطبية العالمية المتوفرة على الشبكة العنكبوتية . إن مسألة كشف الانتحال في الأبحاث الطبية الم كتوبة باللغات الطبيعية هي مسألة معقدة و تتعلق بالمجال الدقيق للابحاث الطبية . يوجد العديد من الخوارزميات المستخدمة لكشف الانتحال في اللغات الطبيعية و التي تقسم بشكل عام إلى صنفين رئيسين هما خوارزميات المقارنة بين الملفات عن طريق بصمات الملفات ، و خوارزميات مقارنة محتوى الملفات و التي تتضمن خوارزميات مقارنة السلاسل النصية و خوارزميات مقارنة البنى الشجرية للملفات . حديثا تم البحث في مجال خوارزميات كشف الانتحال ذات البعد الدلالي فتم تطوير خوارزميات كشف الانتحال الدلالية المعتمدة على تحليل نماذج الاقتباس في الأبحاث العلمية . تمَ في هذا العمل تطوير نظام لكشف الانتحال باستخدام محرك البحث Bing ، حيث تم استخدام خوارزمية تعتمد على استخدام و توظيف نوعين من الانطولوجيات و هي الأنطولوجيات العامة مثل وورد نت ( WordNet ) و الأنطلوجيات الطبية العالمية أشهرها أنطولوجيا الأمراض Diseases ontology التي تحتوي على توصيف الأمراض و خصائصها و تعريفها و اشتقاق الأمراض من بعضها.
يندرج هذا البحث في إطار الكشف الآلي لعمليات الإنتحال في النصوص المدوّنة باللغة العربية وتقدّم هذه الورقة طريقة مبتكرة تعتمد على استخراج الكلمات الهامة في النص المراد كشفه ومن ثمّ تكوين سلاسل لغوية حسب تواترها في النص. وباستعمال محركات البحث يمكن التث بت من وجود هذه السلاسل اللغوية في نصوص أخرى. في مرحلة ثانية قمنا باستعمال الترجمة الآلية للسلاسل اللغوية قصد استخراج السلاسل المرادفة باللغة الإنجليزية ومن ثمّ استعمال محركات البحث لاستخراج النصوص المدوّنة باللغة الإنجليزية والتي تتطابق مع السلاسل بعد ترجمتها. وتقدّم هذه الورقة العلمية برنامج الكاشف وهو برنامج لكشف حالات الإنتحال وقد قمنا بتقييم البرنامج على مدونة من النصوص العربية وأبرزت النتائج كفاءة الطريقة المتبعة

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا