ترغب بنشر مسار تعليمي؟ اضغط هنا

أحد كتل المبنى الأولى لإنشاء مساعد صوت يتعلق بمهمة وضع علامة الكيانات أو السمات في استعلامات المستخدم. يمكن أن يكون هذا تحديا بشكل خاص عندما تكون الكيانات في العاشر من الملايين، كما هو الحال على سبيل المثال كتالوجات الموسيقى. تتطلب نماذج وضع العلامات التدريبية التدريبية على نطاق صناعي كميات كبيرة من استفسارات المستخدم المسمى بدقة، والتي غالبا ما تكون صعبة ومكلفة لجمعها. من ناحية أخرى، جمع المساعدون الصوتيين عادة الكثير من الاستفسارات غير المستمرة التي لا تزال غير منفصلة في كثير من الأحيان. تقدم هذه الورقة منهجية خاضعة للإشراف ضعيفا لتسمية كميات كبيرة من سجلات الاستعلام الصوتية، معززة مع خطوة تصفية يدوية. تظهر التقييمات التجريبية لدينا أن نماذج علامات الشريعة المدربة على البيانات المتفوقة على البيانات التي تجريب ضعيف تدربت على البيانات المشروحة باليد أو الاصطناعية، بتكلفة أقل. علاوة على ذلك، يؤدي التصفية اليدوية للبيانات الخاضعة للإشراف إلى انخفاض كبير في معدل خطأ العقوبة، مع السماح لنا بتقليل جهود الرعاية البشرية بشكل كبير من أسابيع إلى ساعات، فيما يتعلق بالتعليق اليدوي للاستفسارات. يتم تطبيق الطريقة بنجاح Bootstrap نظام علامات Slot لخدمة تدفق الموسيقى الرئيسية التي تخدم حاليا العديد من عشرات الآلاف من الاستفسارات الصوتية اليومية.
في أنظمة الحوار، يقوم مكون فهم اللغة الطبيعي (NLU) عادة بقرار التفسير (بما في ذلك المجال، النية والفتحات) عن كلام قبل حل الكيانات المذكورة.قد ينتج عن هذا أخطاء تصنيف النوايا وعلامات الفتحة.في هذا العمل، نقترح نفايات ميزات دقة الكيان (ER) في NLU Reran king وإدخال مصطلح خسائر رواية بناء على إشارات إيه لتحسين تعلم الأوزان النموذجية في إطار إعادة النشر.بالإضافة إلى ذلك، للحصول على سيناريو حوار متعدد المجالات، نقترح طريقة مطابقة توزيع النتيجة لضمان درجات الناتجة عن نماذج Reranking NLU من النطاقات المختلفة معايرة بشكل صحيح.في التجارب دون اتصال بالإنترنت، نوضح نهجنا المقترح تفوق بشكل كبير على نموذج خط الأساس على كل من تقييمات المجال الواحدة والعبر.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا