ترغب بنشر مسار تعليمي؟ اضغط هنا

النفي في النرويجية: مجموعة بيانات مشروحة

Negation in Norwegian: an annotated dataset

135   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة Norecneg - مجموعة بيانات النفي الأولى المشروح للنرويجية.تم تفاح الإشارات النفي والعنوان الواحدة في الجملة عبر أكثر من 11 ألف جمل تمتد أكثر من 400 وثيقة لمجموعة فرعية من الاستعراض النرويجي Corpus (Norec).بالإضافة إلى تقديم مناقشة متعمقة للمبادئ التوجيهية التوضيحية، نقدم أيضا مجموعة أولى من النتائج القياسية المستندة إلى نهج بياني لتحليل الرسم البياني.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبح على الإنترنت على الإنترنت مصدر قلق متزايد للنساء العربيات الذين يعانون من سوء المعاملة على الإنترنت على أساس الجنس على أساس يومي. يمكن أن تساعد أنظمة الكشف الأوتوماتيكية في كراثيلي في حظر المحتوى السام العربي للمرأة. يتم إعاقة تطوير هذه النظم من خلال عدم وجود مجموعات البيانات العربية القياسية. في هذه الورقة، نقدم مجموعة بيانات Twitter العربية ل Leavantine للغة الكهثرية (LET-MI) ليكون أول مجموعة بيانات معيار للكريساني. نوفر كذلك مراجعة تفصيلية لخلق البيانات ومراحل التوضيحية. تم التأكيد على اتساق التوضيحية الخاصة ب DataSet المقترحة من خلال تدابير تقييم الاتفاقية بين الخصوصية. علاوة على ذلك، تم استخدام دعونا كمادة بيانات تقييم من خلال مهام التصنيف الثنائية / متعددة المستهدفة التي أجرتها العديد من أنظمة تعلم الآلات ذات الجهاز من خلال تكوين التعلم المتعدد المهام (MTL). أشارت النتائج التي تم الحصول عليها إلى أن العروض التي حققتها النظم المستخدمة تتسق مع النتائج الحديثة لغات أخرى غير اللغة العربية، أثناء توظيف MTL تحسن أداء مهام التصنيف الكبرى / الهدف.
دقة النفي النفي هي مفتاح استخراج المعلومات عالية الجودة من النصوص السريرية، ولكن حتى الآن، كانت الجهود المبذولة لجعل المشفرين المستخدمة في نفي استخراج المعلومات، كانت تقتصر على اللغة الإنجليزية.نقدم نهجا عالميا لاستحقاق النرجب متعدد اللغات اللغوي، ال ذي يتغلب على عدم وجود بيانات تدريبية من خلال الاعتماد على الموارد المتفاوتة بلغات ومجالات مختلفة.نقيم نهجين للتعلم من هذه الموارد، والتدريب على البيانات والتدريب المجمع في إعداد التعلم متعدد المهام.تظهر تجاربنا أن دقة النطاق الصفرية في النص السريري ممكن، وأن الجمع بين الموارد المتاحة تعمل على تحسين الأداء في معظم الحالات.
أدوات البناء لإزالة المعلومات الحساسة مثل الأسماء الشخصية والعناوين وأرقام الهواتف - ما يسمى بالمعلومات الصحية المحمية (PHI) - من النص الحر الإكلينيكي هي مهمة مهمة لجعل النصوص السريرية متاحة للبحث. يجب تقييم هذه أدوات تحديد الهوية فيما يتعلق بجودتها في شكل دقة القياسات وإعادة الاتصال. لتقييم هذه الأدوات، يجب أن تكون معايير الذهب - النص السريري المشروح - يجب أن تكون متاحة. هذه المعايير الذهبية موجودة لغات أكبر. للنرويجية، ماذا - على الإطلاق، لا توجد هذه الموارد. لذلك، تم تمديد كوربوس الإكلينيكي الاصطناعية النرويجية الموجودة بالفعل، Norsynthclinical، مع فيس ومشروحة من قبل اثنين من الناحيين، والحصول على اتفاقية مشتركة بين المعجبين بقيمة 0.94 F1. في المجموع، يحتوي Corpus على 409 حيلة فاي مشروحة وتسمى Norsynthclinical Phi. تم تطوير وتدريب الأداة الهجينة لإلغاء تحديد (تعلم الآلة والبيانات المستندة إلى القواعد) على النرويجية بالموارد المفتوحة المتاحة، وحصلت على تدبير إجمالي F1 من 0.73 واستدعاء 0.62، عند اختباره باستخدام Norsynthclinicalical Phi. يتم فتح Phi Norsynthclinical Phi ومتاحا في Github لاستخدامها من قبل مجتمع البحث.
تقدم هذه الورقة StoryDB --- مجموعة بيانات واسعة متعددة اللغات من الروايات.StoryDB هي جثة من النصوص التي تضم قصص في 42 لغة مختلفة.تتضمن كل لغة 500+ قصص.تشمل بعض اللغات أكثر من 20 ألف قصة.يتم فهرسة كل قصة عبر اللغات والمسمى مع العلامات مثل النوع أو الم وضوع.يعرض Corpus تباين موضعي ولغوي غني ويمكن أن يكون بمثابة مورد لدراسة دور السرد في معالجة اللغة الطبيعية في مختلف اللغات بما في ذلك الموارد المنخفضة.نوضح أيضا كيف يمكن استخدام مجموعة البيانات لقياس ثلاث نماذج متعددة اللغات الحديثة، وهي mdistillbert و mbert و xlm-roberta.
أظهرت نماذج اختيار الاستجابة متعددة الدوران مؤخرا أداء مماثل للبشر في العديد من البيانات القياسية.ومع ذلك، في البيئة الحقيقية، غالبا ما تحتوي هذه النماذج على نقاط ضعف، مثل اتباع تنبؤات غير صحيحة تستند بشكل كبير على الأنماط السطحية دون فهم شامل للسياق .على سبيل المثال، غالبا ما تعطي هذه النماذج درجات عالية مرشحة للاستجابة الخاطئة التي تحتوي على العديد من الكلمات الرئيسية المتعلقة بالسياق ولكن باستخدام المضارع غير المتناقص.في هذه الدراسة، نقوم بتحليل نقاط الضعف في نماذج اختيار استجابة الاستجابة الكورية من هذا المجال ونشر مجموعة بيانات الخصومة لتقييم هذه نقاط الضعف.نقترح أيضا استراتيجية لبناء نموذج قوي في هذه البيئة الخصومة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا