ترغب بنشر مسار تعليمي؟ اضغط هنا

تطوير معيارا للحد من تحيز البيانات في إسناد التأليف

Developing a Benchmark for Reducing Data Bias in Authorship Attribution

296   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إسناد التأليف هو مهمة تعيين وثيقة غير معروفة إلى مؤلف من مجموعة من المرشحين.في الماضي، تستخدم الدراسات في هذا المجال مجموعات بيانات التقييم المختلفة لإظهار فعالية الخطوات والميزات والنماذج مسبقا.ومع ذلك، فإن جزء صغير فقط من الأعمال يستخدم أكثر من مجموعة بيانات لإثبات المطالبات.في هذه الورقة، نقدم مجموعة من مجموعات بيانات إيسبت الأمعاء المتنوعة للغاية، والتي تعميم نتائج التقييم بشكل أفضل من أبحاث إسناد التأليف.علاوة على ذلك، نقوم بتنفيذ مجموعة واسعة من نماذج تعلم الآلات المستخدمة سابقا وإظهار أن العديد من النهج تظهر عروضا مختلفة بشكل كبير عند تطبيقها على مجموعات بيانات مختلفة.ندرج نماذج لغة مدربة مسبقا، لأول مرة اختبرها في هذا المجال بطريقة منهجية.أخيرا، نقترح مجموعة من الدرجات المجمعة لتقييم جوانب مختلفة من جمع البيانات.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

وثقت البحوث الحديثة أن النتائج التي تم الإبلاغ عنها في أوراق إسناد التأليف المتأتلة بشكل متكرر يصعب إنتاجها.غالبا ما يقترح الكود والبيانات التي يتعذر الوصول إليها كعوامل تمنع النسخ الناجحة.حتى عندما تتوفر المواد الأصلية، تظل المشكلات التي تمنع الباحث ين من مقارنة فعالية طرق مختلفة.لحل المشاكل المتبقية --- عدم وجود مجموعات اختبار ثابت واستخدام كورسا متجانسة بشكل غير لائق --- ورقة لدينا تساهم مواد لخمس تجارب تحديد الهوية المؤقتة المغلقة.تتميز التجارب الخمس بنصوص من 106 مؤلفة متميزة.تشمل التجارب مجموعة من النثر الإنجليزي الأمريكي الأمريكي المعاصر.توفر هذه التجارب الأساس لأبحاث إسناد التأليف المشبعة والمؤثرات القابلة للتكرار التي تنطوي على كتابة معاصرة.
إسناد التأليف المتبادل هو المهمة الصعبة المتمثلة في تصنيف المستندات من قبل المؤلفين ثنائي اللغة حيث تتم كتابة وثائق التدريب بلغة مختلفة عن وثائق التقييم. تعتمد الحلول التقليدية على أي ترجمة لتمكين استخدام ميزات اللغة الواحدة أو طرق استخراج الميزات ال مستقلة من اللغة. في الآونة الأخيرة، يمكن أيضا تدريب نماذج اللغة القائمة على المحولات مثل Bert مسبقا على لغات متعددة، مما يجعلها مرشحا بديهيا للصفوفات المصنوعة من اللغة عبر اللغات التي لم يتم استخدامها لهذه المهمة بعد. نقوم بإجراء تجارب مكثفة لقياس أداء ثلاث نهج مختلفة لتجربة إسناد التأليف الصغير باللغة الصغيرة: (1) استخدام الميزات المستقلة للغات مع نماذج التصنيف التقليدية (2) باستخدام نماذج لغة مدربة مسبقا متعددة اللغات، و (3) استخدام الترجمة الآلية للسماح بتصنيف اللغة الفردي. بالنسبة للميزات المستقلة باللغة، فإننا نستخدم ميزات النحوية العالمية مثل علامات جزء من الكلام ورسم الرسوم البيانية التبعية، ومبرز متعدد اللغات كنموذج لغة مدرب مسبقا. نحن نستخدم تعليقات البيانات الاجتماعية الصغيرة على نطاق واسع، مما يعكس بشكل وثيق السيناريوهات العملية. نظهر أن تطبيق الترجمة الآلية يزيد بشكل كبير من أداء جميع الأساليب تقريبا، وأن الميزات الأساسية في تركيبة مع خطوة الترجمة تحقق أفضل أداء التصنيف الكلي. على وجه الخصوص، نوضح أن نماذج اللغة المدربة مسبقا متفوقة من قبل النماذج التقليدية في مشاكل إسناد التأليف الصغيرة على نطاق صغير لكل مزيج لغة تم تحليلها في هذه الورقة.
المحادثات الإنسانية تتطور بشكل طبيعي حول مواضيع مختلفة والتحرك بطلاقة بينهما.في البحوث على أنظمة الحوار، غالبا ما يتم تجاهل القدرة على الانتقال بنشاط وسلاسة إلى مواضيع جديدة.في هذه الورقة، نقدم TIAGE، وهو مؤشر مربع حوار مدرك مواضيع جديد يستخدم باستخد ام التعليقات التوضيحية البشرية على نوبات الموضوع.استنادا إلى TIAGE، نقدم ثلاث مهام للتحقيق في سيناريوهات مختلفة من النمذجة التي تحول المواضيع في إعدادات الحوار: الكشف عن موضوع التحول، وموضوع تحول توليد استجابة استجابة وتوليد التدريب على الموضوع.تشير التجارب في هذه المهام إلى أن إشارات التحول في Tiage مفيدة لتوليد استجابة الموضوع.من ناحية أخرى، ما زالت أنظمة الحوار تكافح لتحديد وقت تغيير الموضوع.يشير هذا إلى أن هناك حاجة إلى مزيد من الأبحاث في نمذجة الحوار Topic-Shift Cy.
نظرا لأن أنظمة NLP تصبح أفضل في اكتشاف الآراء والمعتقدات من النص، فمن المهم التأكد من أن النماذج ليس فقط دقيقة ولكنها تصل أيضا إلى تنبؤاتها بطرق تتماشى مع المنطق البشري.في هذا العمل، نقدم طريقة لإنقاذ الترشيد يشبه الإنسان نموذجا للكشف عن الموقف باستخ دام التعليقات التوضيحية الجماعية على جزء صغير من بيانات التدريب.نظرا لأنه في بيئة نادرة بيانات، فإن نهجنا يمكن أن يحسن منطق مصنف أحدث --- لا سيما للمدخلات التي تحتوي على ظواهر صعبة مثل السخرية - - دون أي تكلفة في الأداء التنبئي.علاوة على ذلك، نوضح أن الأوزان الاهتمام تتفوق على طريقة رائدة في تقديم تفسيرات مخلصة لتنبؤات النماذج لدينا، مما يخدم كمصدر رخيص وموثوق بحسب حسابي لنموذجنا.
تحديد ما إذا كان هناك مستندان مؤلفان من المؤلف نفسه، المعروف أيضا باسم التحقق من التأليف، تم تناوله تقليديا باستخدام الأساليب الإحصائية. في الآونة الأخيرة، تم العثور على تمثيلات التأليف المستفادة باستخدام الشبكات العصبية لتفوق البدائل، لا سيما في الإ عدادات الكبيرة التي تنطوي على مئات الآلاف من المؤلفين. ولكن هل تعلمت هذه التمثيلات في نقل مجال معين إلى مجالات أخرى؟ أو هل هذه تمثيلات متشابكة بطبيعتها مع ميزات خاصة بالمجال؟ لدراسة هذه الأسئلة، نقوم بإجراء أول دراسة واسعة النطاق لنقل المجال المتبادل للتحقق من التأليف بالنظر إلى التحويلات الصفرية التي تنطوي على ثلاثة مجالات متباينة: مراجعات الأمازون وقصص قصيرة الصوفية والتعليقات Reddit. نجد أنه على الرغم من أن درجة التنقل مفاجأة ممكنة بين مجالات معينة، إلا أنها ليست ناجحة بين الآخرين. نحن ندرس خصائص هذه المجالات التي تؤثر على التعميم واقتراح أساليب بسيطة ولكنها فعالة لتحسين النقل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا