وثقت البحوث الحديثة أن النتائج التي تم الإبلاغ عنها في أوراق إسناد التأليف المتأتلة بشكل متكرر يصعب إنتاجها.غالبا ما يقترح الكود والبيانات التي يتعذر الوصول إليها كعوامل تمنع النسخ الناجحة.حتى عندما تتوفر المواد الأصلية، تظل المشكلات التي تمنع الباحثين من مقارنة فعالية طرق مختلفة.لحل المشاكل المتبقية --- عدم وجود مجموعات اختبار ثابت واستخدام كورسا متجانسة بشكل غير لائق --- ورقة لدينا تساهم مواد لخمس تجارب تحديد الهوية المؤقتة المغلقة.تتميز التجارب الخمس بنصوص من 106 مؤلفة متميزة.تشمل التجارب مجموعة من النثر الإنجليزي الأمريكي الأمريكي المعاصر.توفر هذه التجارب الأساس لأبحاث إسناد التأليف المشبعة والمؤثرات القابلة للتكرار التي تنطوي على كتابة معاصرة.
Recent research has documented that results reported in frequently-cited authorship attribution papers are difficult to reproduce. Inaccessible code and data are often proposed as factors which block successful reproductions. Even when original materials are available, problems remain which prevent researchers from comparing the effectiveness of different methods. To solve the remaining problems---the lack of fixed test sets and the use of inappropriately homogeneous corpora---our paper contributes materials for five closed-set authorship identification experiments. The five experiments feature texts from 106 distinct authors. Experiments involve a range of contemporary non-fiction American English prose. These experiments provide the foundation for comparable and reproducible authorship attribution research involving contemporary writing.
المراجع المستخدمة
https://aclanthology.org/
إسناد التأليف هو مهمة تعيين وثيقة غير معروفة إلى مؤلف من مجموعة من المرشحين.في الماضي، تستخدم الدراسات في هذا المجال مجموعات بيانات التقييم المختلفة لإظهار فعالية الخطوات والميزات والنماذج مسبقا.ومع ذلك، فإن جزء صغير فقط من الأعمال يستخدم أكثر من مجم
إسناد التأليف المتبادل هو المهمة الصعبة المتمثلة في تصنيف المستندات من قبل المؤلفين ثنائي اللغة حيث تتم كتابة وثائق التدريب بلغة مختلفة عن وثائق التقييم. تعتمد الحلول التقليدية على أي ترجمة لتمكين استخدام ميزات اللغة الواحدة أو طرق استخراج الميزات ال
تحديد ما إذا كان هناك مستندان مؤلفان من المؤلف نفسه، المعروف أيضا باسم التحقق من التأليف، تم تناوله تقليديا باستخدام الأساليب الإحصائية. في الآونة الأخيرة، تم العثور على تمثيلات التأليف المستفادة باستخدام الشبكات العصبية لتفوق البدائل، لا سيما في الإ
نظرا لأن أنظمة NLP تصبح أفضل في اكتشاف الآراء والمعتقدات من النص، فمن المهم التأكد من أن النماذج ليس فقط دقيقة ولكنها تصل أيضا إلى تنبؤاتها بطرق تتماشى مع المنطق البشري.في هذا العمل، نقدم طريقة لإنقاذ الترشيد يشبه الإنسان نموذجا للكشف عن الموقف باستخ
تعدُّ السيرة النبوية من أقدم المؤلفات في التراث العربي الإسلامي المدوّن, و هي تكتسب أهميتها التاريخية بوصفها أسفاراً توثّق لحياة النبي الكريم محمد ( ص ) من جهة, و تنبئ عن ملامح الفكر العربي في بدايات مرحلة التأليف و الكتابة المنهجية من جهة أخرى.
و ي