ترغب بنشر مسار تعليمي؟ اضغط هنا

تقليل الارتباك في التعلم النشط لعلامات جزء من الكلام

Reducing Confusion in Active Learning for Part-Of-Speech Tagging

275   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يستخدم التعلم النشط (AL) خوارزمية اختيار البيانات لتحديد عينات تدريب مفيدة لتقليل تكلفة التوضيحية. هذه هي الآن أداة أساسية لبناء محلل تحويلات تحويلية منخفضة الموارد مثل Taggers جزء من الكلام (POS). يتم تصميم الاستدلال الموجودة بشكل عام بشكل عام على مبدأ اختيار مثيلات تدريبية غير مؤكدة ولكنها قد تقلل من هذه الحالات تقليل عدد كبير من الأخطاء. ومع ذلك، في دراسة تجريبية عبر ست لغات متنوعة من النطباض (الألمانية والسويدية والاجنية والشابات الشمالية والفارسية والأوكرانية)، وجدنا النتيجة المثيرة للدهشة أنه حتى في سيناريو أوراكل حيث نعرف عدم اليقين الحقيقي للتوقعات، هذه الاستدلال الحالية بعيدون عن الأمثل. بناء على هذا التحليل، نطرح مشكلة آل كما اختيار الحالات التي تقلل من الارتباك بين أزواج من علامات الإخراج معينة. تظهر تجربة واسعة النطاق على اللغات المذكورة أعلاه أن استراتيجيتنا المقترحة تتفوق على استراتيجيات آجال أخرى من هامش مهم. نقدم أيضا نتائج مساعدة توضح أهمية المعايرة المناسبة للنماذج، والتي نضمنها من خلال التدريب المبريد، وتحليلا إظهار كيفية تحديد استراتيجيتنا المقترحة أمثلة تتابع بشكل وثيق توزيع بيانات Oracle. يتم إصدار الرمز علني هنا



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن ندرب ونختبر خمسة علامات مفتوحة المصدر، والتي تستخدم أساليب مختلفة، على ثلاثة كوربورا السويدية، وهي ذات حجم مماثل ولكن استخدام أشكال مختلفة.يحقق Tagger KB-Bert Tagger أعلى دقة لعلامات جزء من الكلام والمورفولوجية، بينما تكون سريعة بما يكفي للاستخدا م العملي.نحن نقارن أيضا الأداء عبر الأشرقة وعبر الأنواع المختلفة في إحدى الشركات.نقوم بإجراء تحليل الأخطاء اليدوي وأداء تحليل إحصائي للعوامل التي تؤثر على مدى صعوبة علامات محددة.أخيرا، نقوم باختبار أساليب الفرقة، والتي تبين أن التحسن الصغير (ولكن غير مهم) على أفضل أداء يمكن تحقيقه.
كانت هناك جهود في التعلم عبر التحويلات عبر اللغات لمختلف المهام.نقدم نهجا باستخدام طريقة تكبير البيانات الاستكمالية، والابتزاز، لتحسين تعميم النماذج من أجل وضع علامات جزء من الكلام المدربين على لغة مصدر، وتحسين أدائها على اللغات المستهدفة غير المرئية .من خلال التجارب على عشرة لغات مع الهياكل المتنوعة وجذور اللغة، نطرح تطبيقها لتطبيقها على المهام المتبادلة الصفرية الصفرية.
نقدم أول نموذج تعليمي متعدد المهام - يدعى Phonlp - للحصول على وضع العلامات الفيتنامية الفيتنامية المشتركة (POS)، والتعرف على الكيان المسمى (NER) وتحليل التبعية. تشير التجارب في مجموعات البيانات الفيتنامية إلى المؤشرات الفيتنامية أن فونلتر تنتج نتائج حديثة، مما يتفوق على نهج تعلم المهمة الواحدة التي تلتصق بها نماذج اللغة الفيتنامية المدربة مسبقا Phobert (Nguyen and Nguyen، 2020) لكل مهمة بشكل مستقل. نحن نطلق علنا ​​phonlp كمجموعة أدوات مفتوحة المصدر تحت ترخيص Apache 2.0. على الرغم من أننا نحدد Phonlp للفيتنامية، إلا أن البرامج النصية لأمر عمل التدريب والتقييم لدينا في الواقع يمكن أن تعمل مباشرة من أجل لغات أخرى تحتوي على نموذج لغوي مدرب مسبقا مدربا مدربا ومقاذاة ذهبية مشروحة متاحة للمهام الثلاثة لوضع علامات POS و NER و TEMENTION وبعد نأمل أن تكون شركة Phonlp بمثابة مجموعة أساسية قوية ومفيدة لأبحاث وتطبيقات NLP المستقبلية ليس فقط الفيتنامية ولكن أيضا اللغات الأخرى. لدينا phonlp متاح في https://github.com/vinairesearch/phonlp
في هذا العمل، نقدم تحليل جزء واسع النطاق لخطاب مستخدمي وسائل التواصل الاجتماعي مع الاكتئاب.كشفت الأبحاث في علم النفس أن المستخدمين الاكتئابين يميلون إلى أن يكونوا مركزة ذاتيا، أكثر انشغالا مع أنفسهم ويقومون بإعادة المزيد عن حياتهم وعواطفهم.يهدف عملنا إلى الاستفادة من مجموعات بيانات واسعة النطاق والأساليب الحسابية لاستكشاف خطابي كمي.نحن نستخدم مجموعة بيانات الاكتئاب المتاحة للجمهور من التنبؤ بالمخاطر المبكرة في ورشة عمل الإنترنت (ERISK) 2018 واستخراج ميزات جزء من الكلام والعديد من المؤشرات بناء عليها.تكشف نتائجنا عن فروق ذات دلالة إحصائية بين الأفراد الاكتئاب وغير الاكتئاب الذين يؤكدون النتائج من أدب علم النفس الحالي.يوفر عملنا نظرة ثاقبة فيما يتعلق بالطريقة التي يعبر فيها الأفراد الاكتئاب عن أنفسهم على منصات وسائل التواصل الاجتماعي، مما يتيح لنماذج حسابية على علم أفضل للمساعدة في مراقبة الأمراض العقلية ومنعها.
تعد خلط التعليمات البرمجية (CM) ظاهرة ملحوظة في كثير من الأحيان تستخدم لغات متعددة في الكلام أو الجملة. لا توجد قيود نحوية صارمة لاحظت في خلط التعليمات البرمجية، وتتألف من أشكال الإملاء غير القياسية. إن التعقيد اللغوي الناتج عن العوامل المذكورة أعلاه جعل التحليل الحسابي للغة المختلطة من التعليمات البرمجية مهمة صعبة. تعد تحديد الهوية اللغوية (LI) وجزء الكلام (POS) الخطوات الأساسية التي تساعد في تحليل هيكل النص المختلط من التعليمات البرمجية. في كثير من الأحيان، تعتبر مهام وضع العلامات LI و POS في سيناريو خلط التعليمات البرمجية. نحن نعلم مشكلة التعامل مع تعدد اللغات والهيكل النحوي أثناء تحليل الجملة المختلطة من التعليمات البرمجية باعتبارها مهمة تعليمية مشتركة. في هذه الورقة، قمنا بالتعاون بشكل مشترك وتحسين اكتشاف اللغة وجزء من نماذج وضع علامات الكلام في السيناريو المختلط من التعليمات البرمجية. استخدمنا محول مع بنية الشبكة العصبية التنافعية. نحن ندرب طريقة التعلم المشترك من خلال الجمع بين طرامات نقاط البيع ونماذج LI على نص الوسائط الاجتماعية المختلطة من التعليمات البرمجية التي تم الحصول عليها من المهمة المشتركة أيقونة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا