ترغب بنشر مسار تعليمي؟ اضغط هنا

يعد الكشف عن النية مكونا رئيسيا في أنظمة الحوار الحديثة الموجهة نحو الأهداف التي تنجز مهمة مستخدم من خلال التنبؤ بمثابة إيداع نص المستخدمين. هناك ثلاثة تحديات أساسية في تصميم نماذج الكشف عن النية قوية ودقيقة. أولا، تتطلب نماذج الكشف عن النية النموذجي ة كمية كبيرة من البيانات المسمى لتحقيق دقة عالية. لسوء الحظ، في السيناريوهات العملية هو أكثر شيوعا للعثور على مجموعات بيانات صغيرة وغير متوازنة وصاخبة. ثانيا، حتى مع بيانات تدريب كبيرة، يمكن أن ترى نماذج الكشف عن النية توزيعا مختلفا لبيانات الاختبار عند نشرها في العالم الحقيقي، مما يؤدي إلى دقة سيئة. أخيرا، يجب أن يكون نموذج اكتشاف نوايا عمليا فعاليا في كل من التدريب واستنتاج الاستعلام الفردي بحيث يمكن استخدامه بشكل مستمر وإعادة تدريبه بشكل متكرر. نحن نؤيد أساليب الكشف عن النية في مجموعة متنوعة من مجموعات البيانات. تظهر نتائجنا أن نموذج الكشف عن نية مساعد Watson يفوق الحلول التجارية الأخرى ومقارنة مع نماذج اللغة المحددة مسبقا كبيرة مع حدوث جزء صغير فقط من الموارد الحسابية وبيانات التدريب. يدل مساعد واتسون درجة أعلى من المتانة عند تختلف توزيعات التدريب والاختبار.
تقدم هذه الورقة خط أنابيب التعلم شبه الإشرافه (SSL) على أساس إطار المعلم الطالب، الذي يزداد ملايين الأمثلة غير المستمرة لتحسين مهام فهم اللغة الطبيعية (NLU). نحن نبحث في سؤالين يتعلق باستخدام البيانات غير المسبقة في سياق الإنتاج SSL: 1) كيفية تحديد ع ينات من تجمع بيانات ضخمة غير مسفوقة مفيدة لتدريب SSL، و 2) كيف تؤثر البيانات المحددة على أداء حالة مختلفة من بين تقنيات SSL-Art. نقارن أربعة تقنيات SSL المستخدمة على نطاق واسع، والتسمية الزائفة (PL)، وقطاع المعرفة (KD)، والتدريب الخصم الافتراضي (VAT) والتدريب عبر الرؤية (CVT) جنبا إلى جنب مع طريقتين اختيار البيانات بما في ذلك الاختيار القائم على اللجنة وتحسين الأسفل اختيار مقرها. نحن ندرس مزيدا من فوائد وعيوب هذه التقنيات عند تطبيقها على تصنيف تكاليف النية (IC) ومهام التعرف على الكيان المسماة (NER)، وتوفير المبادئ التوجيهية التي تحدد عندما تكون كل من هذه الطرق مفيدة لتحسين أنظمة NLU كبيرة الحجم.
نقدم أول نموذج تعليمي متعدد المهام - يدعى Phonlp - للحصول على وضع العلامات الفيتنامية الفيتنامية المشتركة (POS)، والتعرف على الكيان المسمى (NER) وتحليل التبعية. تشير التجارب في مجموعات البيانات الفيتنامية إلى المؤشرات الفيتنامية أن فونلتر تنتج نتائج حديثة، مما يتفوق على نهج تعلم المهمة الواحدة التي تلتصق بها نماذج اللغة الفيتنامية المدربة مسبقا Phobert (Nguyen and Nguyen، 2020) لكل مهمة بشكل مستقل. نحن نطلق علنا ​​phonlp كمجموعة أدوات مفتوحة المصدر تحت ترخيص Apache 2.0. على الرغم من أننا نحدد Phonlp للفيتنامية، إلا أن البرامج النصية لأمر عمل التدريب والتقييم لدينا في الواقع يمكن أن تعمل مباشرة من أجل لغات أخرى تحتوي على نموذج لغوي مدرب مسبقا مدربا مدربا ومقاذاة ذهبية مشروحة متاحة للمهام الثلاثة لوضع علامات POS و NER و TEMENTION وبعد نأمل أن تكون شركة Phonlp بمثابة مجموعة أساسية قوية ومفيدة لأبحاث وتطبيقات NLP المستقبلية ليس فقط الفيتنامية ولكن أيضا اللغات الأخرى. لدينا phonlp متاح في https://github.com/vinairesearch/phonlp
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا