ترغب بنشر مسار تعليمي؟ اضغط هنا

DataSet السويدية ينوجندر

The Swedish Winogender Dataset

302   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم مجموعة اختبار Swewinogender، مجموعة بيانات تشخيصية لقياس التحيز بين الجنسين في دقة Aquerence.وهي على غرارها بعد المعيار الإنجليزي الإنجليزي، ويتم إصدارها مع إحصاءات مرجعية بشأن توزيع الرجال والنساء بين المهن والشكام بين الجنسين والاحتلال في مواد الشمال الحديثة.تناقش الورقة تصميم وإنشاء مجموعة البيانات، ويعرض تحقيقا صغيرا في الإحصاءات التكميلية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تقدم الورقة موردا جديدا ورمائيا، لدراسة مورفولوجيا تكوين الكلمة السويدية الحديثة.تم تقسيم ما يقرب من 16.000 مادة معجمية في المورد بشكل يدويا إلى مورفيمز تشكيل Word، ومسمى لفئاتها، مثل البادئات والمعقاص والجذور، وما إلى ذلك آليات تكوين كلمة، مثل الاشت قاق والمضاعف قد ارتبطت بكل عنصرفي القائمة.توضح المقالة اختيار العناصر التوضيحي اليدوي ومبادئ التوضيحية، والتقارير المتعلقة بموثوقية التوضيحية اليدوية، ويعرض الأدوات والموارد وبعض الإحصاءات الأولى.بالنظر إلى طبيعة الموارد الخاصة بالموارد، من الممكن استخدامه للدراسات التجريبية وكذلك تطوير خوارزميات مدركة في مجال اللغويسيا تجزئة مورفيم ووضع العلامات (نهج الكلمات الفرعية الإحصائية CF).سيتم توفير المورد بحرية متاحة.
تقدم هذه الدراسة نسخة مخصبة من DataSet E2E، وهي واحدة من موارد اللغة الأكثر شعبية ل NLG البيانات إلى النص.نحن نستخلص من التمثيل الوسيط لمهام خطوط الأنابيب الشعبية مثل ترتيب الخطاب، وهيكال نصية، وتعليم التعبير وإشارة التعبير،، مما يتيح الباحثين على تط وير وتقييم أنظمة خطوط أنابيب البيانات إلى النص بسرعة.يتم استخراج التمثيل الوسيط من خلال محاذاة التمثيلات غير اللغوية والنصية من خلال عملية تسمى Delexicalization، والتي تتألف في استبدال الإدخال بإحالة التعبيرات إلى الكيانات / السمات مع العناصر النائبة.مجموعة البيانات المخصبة متاحة للجمهور.
يمكن للإيذاء عبر الإنترنت إلحاق الأذى بالمستخدمين والمجتمعات، مما يجعل المساحات عبر الإنترنت غير آمنة وسامة.غالبا ما يتم احتساب التقدم المحرز في الكشف عن المحتوى المسيء والتصنيف تلقائيا بسبب عدم وجود مجموعات بيانات عالية الجودة ومفصلة. نقدم مجموعة بي انات جديدة من إدخالات Reddit الإنجليزية في المقام الأول والتي تعالج عدة قيود على العمل السابق.يحتوي ذلك (1) على ست فئات أساسية مميزة من الناحية الناحية الفنية وكذلك الفئات الثانوية، (2) يحتوي على تسميات مشروحة في سياق مؤشر ترابط المحادثة، (3) تحتوي (3) على المناولة و (4) تستخدم عملية تحكم مجموعة مدفوعة من الخبراء عاليةالتوضيحية الجودة.نبلغ عن العديد من النماذج الأساسية لقياس عمل الباحثين في المستقبل.البيانات الموحدة والمبادئ التوجيهية التوضيحية والنماذج والرمز متاحة بحرية.
نحن ندرب ونختبر خمسة علامات مفتوحة المصدر، والتي تستخدم أساليب مختلفة، على ثلاثة كوربورا السويدية، وهي ذات حجم مماثل ولكن استخدام أشكال مختلفة.يحقق Tagger KB-Bert Tagger أعلى دقة لعلامات جزء من الكلام والمورفولوجية، بينما تكون سريعة بما يكفي للاستخدا م العملي.نحن نقارن أيضا الأداء عبر الأشرقة وعبر الأنواع المختلفة في إحدى الشركات.نقوم بإجراء تحليل الأخطاء اليدوي وأداء تحليل إحصائي للعوامل التي تؤثر على مدى صعوبة علامات محددة.أخيرا، نقوم باختبار أساليب الفرقة، والتي تبين أن التحسن الصغير (ولكن غير مهم) على أفضل أداء يمكن تحقيقه.
من الصعب تقييم نماذج اللغة.ونحن نفرج عن Supersim، ومجموعة تشابه ورابطات متعلقة على نطاق واسع في السويدية التي بنيت أحكاما بشرية خبراء.يتكون مجموعة الاختبار من 1،360 كلمة أزواج يحكمها بشكل مستقل لكل من الرصيد والتشابه بمقدار خمسة Annotators.نقوم بتقيي م ثلاث نماذج مختلفة (Word2VEC، FastText، والقفازات) المدربين على مجموعة بيانات سويدية منفصلة، وهي كوربوس Gigaword السويدية وتفريغ ويكيبيديا السويدية، لتوفير خط أساس للمقارنة في المستقبل.سنقوم بتصدر مجموعة الاختبارات المشروحة بالكامل والنماذج والنماذج والبيانات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا