يستخدم التعلم النشط (AL) خوارزمية اختيار البيانات لتحديد عينات تدريب مفيدة لتقليل تكلفة التوضيحية. هذه هي الآن أداة أساسية لبناء محلل تحويلات تحويلية منخفضة الموارد مثل Taggers جزء من الكلام (POS). يتم تصميم الاستدلال الموجودة بشكل عام بشكل عام على مبدأ اختيار مثيلات تدريبية غير مؤكدة ولكنها قد تقلل من هذه الحالات تقليل عدد كبير من الأخطاء. ومع ذلك، في دراسة تجريبية عبر ست لغات متنوعة من النطباض (الألمانية والسويدية والاجنية والشابات الشمالية والفارسية والأوكرانية)، وجدنا النتيجة المثيرة للدهشة أنه حتى في سيناريو أوراكل حيث نعرف عدم اليقين الحقيقي للتوقعات، هذه الاستدلال الحالية بعيدون عن الأمثل. بناء على هذا التحليل، نطرح مشكلة آل كما اختيار الحالات التي تقلل من الارتباك بين أزواج من علامات الإخراج معينة. تظهر تجربة واسعة النطاق على اللغات المذكورة أعلاه أن استراتيجيتنا المقترحة تتفوق على استراتيجيات آجال أخرى من هامش مهم. نقدم أيضا نتائج مساعدة توضح أهمية المعايرة المناسبة للنماذج، والتي نضمنها من خلال التدريب المبريد، وتحليلا إظهار كيفية تحديد استراتيجيتنا المقترحة أمثلة تتابع بشكل وثيق توزيع بيانات Oracle. يتم إصدار الرمز علني هنا
Active learning (AL) uses a data selection algorithm to select useful training samples to minimize annotation cost. This is now an essential tool for building low-resource syntactic analyzers such as part-of-speech (POS) taggers. Existing AL heuristics are generally designed on the principle of selecting uncertain yet representative training instances, where annotating these instances may reduce a large number of errors. However, in an empirical study across six typologically diverse languages (German, Swedish, Galician, North Sami, Persian, and Ukrainian), we found the surprising result that even in an oracle scenario where we know the true uncertainty of predictions, these current heuristics are far from optimal. Based on this analysis, we pose the problem of AL as selecting instances that maximally reduce the confusion between particular pairs of output tags. Extensive experimentation on the aforementioned languages shows that our proposed AL strategy outperforms other AL strategies by a significant margin. We also present auxiliary results demonstrating the importance of proper calibration of models, which we ensure through cross-view training, and analysis demonstrating how our proposed strategy selects examples that more closely follow the oracle data distribution. The code is publicly released here.1
المراجع المستخدمة
https://aclanthology.org/
نحن ندرب ونختبر خمسة علامات مفتوحة المصدر، والتي تستخدم أساليب مختلفة، على ثلاثة كوربورا السويدية، وهي ذات حجم مماثل ولكن استخدام أشكال مختلفة.يحقق Tagger KB-Bert Tagger أعلى دقة لعلامات جزء من الكلام والمورفولوجية، بينما تكون سريعة بما يكفي للاستخدا
كانت هناك جهود في التعلم عبر التحويلات عبر اللغات لمختلف المهام.نقدم نهجا باستخدام طريقة تكبير البيانات الاستكمالية، والابتزاز، لتحسين تعميم النماذج من أجل وضع علامات جزء من الكلام المدربين على لغة مصدر، وتحسين أدائها على اللغات المستهدفة غير المرئية
نقدم أول نموذج تعليمي متعدد المهام - يدعى Phonlp - للحصول على وضع العلامات الفيتنامية الفيتنامية المشتركة (POS)، والتعرف على الكيان المسمى (NER) وتحليل التبعية. تشير التجارب في مجموعات البيانات الفيتنامية إلى المؤشرات الفيتنامية أن فونلتر تنتج نتائج
في هذا العمل، نقدم تحليل جزء واسع النطاق لخطاب مستخدمي وسائل التواصل الاجتماعي مع الاكتئاب.كشفت الأبحاث في علم النفس أن المستخدمين الاكتئابين يميلون إلى أن يكونوا مركزة ذاتيا، أكثر انشغالا مع أنفسهم ويقومون بإعادة المزيد عن حياتهم وعواطفهم.يهدف عملنا
تعد خلط التعليمات البرمجية (CM) ظاهرة ملحوظة في كثير من الأحيان تستخدم لغات متعددة في الكلام أو الجملة. لا توجد قيود نحوية صارمة لاحظت في خلط التعليمات البرمجية، وتتألف من أشكال الإملاء غير القياسية. إن التعقيد اللغوي الناتج عن العوامل المذكورة أعلاه