ترغب بنشر مسار تعليمي؟ اضغط هنا

جزء من الكلام العلامات من النصوص السويدية في الحقبة العصبية

Part-of-speech tagging of Swedish texts in the neural era

528   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نحن ندرب ونختبر خمسة علامات مفتوحة المصدر، والتي تستخدم أساليب مختلفة، على ثلاثة كوربورا السويدية، وهي ذات حجم مماثل ولكن استخدام أشكال مختلفة.يحقق Tagger KB-Bert Tagger أعلى دقة لعلامات جزء من الكلام والمورفولوجية، بينما تكون سريعة بما يكفي للاستخدام العملي.نحن نقارن أيضا الأداء عبر الأشرقة وعبر الأنواع المختلفة في إحدى الشركات.نقوم بإجراء تحليل الأخطاء اليدوي وأداء تحليل إحصائي للعوامل التي تؤثر على مدى صعوبة علامات محددة.أخيرا، نقوم باختبار أساليب الفرقة، والتي تبين أن التحسن الصغير (ولكن غير مهم) على أفضل أداء يمكن تحقيقه.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يستخدم التعلم النشط (AL) خوارزمية اختيار البيانات لتحديد عينات تدريب مفيدة لتقليل تكلفة التوضيحية. هذه هي الآن أداة أساسية لبناء محلل تحويلات تحويلية منخفضة الموارد مثل Taggers جزء من الكلام (POS). يتم تصميم الاستدلال الموجودة بشكل عام بشكل عام على م بدأ اختيار مثيلات تدريبية غير مؤكدة ولكنها قد تقلل من هذه الحالات تقليل عدد كبير من الأخطاء. ومع ذلك، في دراسة تجريبية عبر ست لغات متنوعة من النطباض (الألمانية والسويدية والاجنية والشابات الشمالية والفارسية والأوكرانية)، وجدنا النتيجة المثيرة للدهشة أنه حتى في سيناريو أوراكل حيث نعرف عدم اليقين الحقيقي للتوقعات، هذه الاستدلال الحالية بعيدون عن الأمثل. بناء على هذا التحليل، نطرح مشكلة آل كما اختيار الحالات التي تقلل من الارتباك بين أزواج من علامات الإخراج معينة. تظهر تجربة واسعة النطاق على اللغات المذكورة أعلاه أن استراتيجيتنا المقترحة تتفوق على استراتيجيات آجال أخرى من هامش مهم. نقدم أيضا نتائج مساعدة توضح أهمية المعايرة المناسبة للنماذج، والتي نضمنها من خلال التدريب المبريد، وتحليلا إظهار كيفية تحديد استراتيجيتنا المقترحة أمثلة تتابع بشكل وثيق توزيع بيانات Oracle. يتم إصدار الرمز علني هنا
كانت هناك جهود في التعلم عبر التحويلات عبر اللغات لمختلف المهام.نقدم نهجا باستخدام طريقة تكبير البيانات الاستكمالية، والابتزاز، لتحسين تعميم النماذج من أجل وضع علامات جزء من الكلام المدربين على لغة مصدر، وتحسين أدائها على اللغات المستهدفة غير المرئية .من خلال التجارب على عشرة لغات مع الهياكل المتنوعة وجذور اللغة، نطرح تطبيقها لتطبيقها على المهام المتبادلة الصفرية الصفرية.
في هذا العمل، نقدم تحليل جزء واسع النطاق لخطاب مستخدمي وسائل التواصل الاجتماعي مع الاكتئاب.كشفت الأبحاث في علم النفس أن المستخدمين الاكتئابين يميلون إلى أن يكونوا مركزة ذاتيا، أكثر انشغالا مع أنفسهم ويقومون بإعادة المزيد عن حياتهم وعواطفهم.يهدف عملنا إلى الاستفادة من مجموعات بيانات واسعة النطاق والأساليب الحسابية لاستكشاف خطابي كمي.نحن نستخدم مجموعة بيانات الاكتئاب المتاحة للجمهور من التنبؤ بالمخاطر المبكرة في ورشة عمل الإنترنت (ERISK) 2018 واستخراج ميزات جزء من الكلام والعديد من المؤشرات بناء عليها.تكشف نتائجنا عن فروق ذات دلالة إحصائية بين الأفراد الاكتئاب وغير الاكتئاب الذين يؤكدون النتائج من أدب علم النفس الحالي.يوفر عملنا نظرة ثاقبة فيما يتعلق بالطريقة التي يعبر فيها الأفراد الاكتئاب عن أنفسهم على منصات وسائل التواصل الاجتماعي، مما يتيح لنماذج حسابية على علم أفضل للمساعدة في مراقبة الأمراض العقلية ومنعها.
تم وصف شروط المستوى الأساسي بأنها الأكثر أهمية في التصنيف البشري.إنها أقدم الكلمات الناشئة في اكتساب لغة الأطفال، ويبدو أنها تحدث بشكل متكرر في اللغة بشكل عام.في هذه المقالة، استكشفنا استخدام الأسماء على المستوى الأساسي في نصوص التعقيد المختلفة، والف رضية التي يمكن أن تكون فرطياتها مع خصائص الكلمات على المستوى الأساسي مفيدة لمهمة التبسيط المعجمي.أجرينا دراساتين في كوربوس باستخدام أربع شروهة مختلفة، شرطين من السويدية القياسية والسويدية اثنين من السويدية البسيطة، واستكشف ما إذا كانت كورسا للنصوص البسيطة تحتوي على نسبة أعلى من الأسماء ذات المستوى الأساسي من كورسا السويدية القياسية.بناء على الأفكار من دراسات Corpus، قمنا بتطوير خوارزمية جديدة لاختيار أفضل مرادف من خلال مكافأة الترددات النسبية العالية والأجهزة الأحادية، وتقييد التسلق في كلمة التسلسل الهرمي لا تشير إلى مرادفات مستوى عال للغاية من الشمول.
تعد خلط التعليمات البرمجية (CM) ظاهرة ملحوظة في كثير من الأحيان تستخدم لغات متعددة في الكلام أو الجملة. لا توجد قيود نحوية صارمة لاحظت في خلط التعليمات البرمجية، وتتألف من أشكال الإملاء غير القياسية. إن التعقيد اللغوي الناتج عن العوامل المذكورة أعلاه جعل التحليل الحسابي للغة المختلطة من التعليمات البرمجية مهمة صعبة. تعد تحديد الهوية اللغوية (LI) وجزء الكلام (POS) الخطوات الأساسية التي تساعد في تحليل هيكل النص المختلط من التعليمات البرمجية. في كثير من الأحيان، تعتبر مهام وضع العلامات LI و POS في سيناريو خلط التعليمات البرمجية. نحن نعلم مشكلة التعامل مع تعدد اللغات والهيكل النحوي أثناء تحليل الجملة المختلطة من التعليمات البرمجية باعتبارها مهمة تعليمية مشتركة. في هذه الورقة، قمنا بالتعاون بشكل مشترك وتحسين اكتشاف اللغة وجزء من نماذج وضع علامات الكلام في السيناريو المختلط من التعليمات البرمجية. استخدمنا محول مع بنية الشبكة العصبية التنافعية. نحن ندرب طريقة التعلم المشترك من خلال الجمع بين طرامات نقاط البيع ونماذج LI على نص الوسائط الاجتماعية المختلطة من التعليمات البرمجية التي تم الحصول عليها من المهمة المشتركة أيقونة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا