أحد كتل المبنى الأولى لإنشاء مساعد صوت يتعلق بمهمة وضع علامة الكيانات أو السمات في استعلامات المستخدم. يمكن أن يكون هذا تحديا بشكل خاص عندما تكون الكيانات في العاشر من الملايين، كما هو الحال على سبيل المثال كتالوجات الموسيقى. تتطلب نماذج وضع العلامات التدريبية التدريبية على نطاق صناعي كميات كبيرة من استفسارات المستخدم المسمى بدقة، والتي غالبا ما تكون صعبة ومكلفة لجمعها. من ناحية أخرى، جمع المساعدون الصوتيين عادة الكثير من الاستفسارات غير المستمرة التي لا تزال غير منفصلة في كثير من الأحيان. تقدم هذه الورقة منهجية خاضعة للإشراف ضعيفا لتسمية كميات كبيرة من سجلات الاستعلام الصوتية، معززة مع خطوة تصفية يدوية. تظهر التقييمات التجريبية لدينا أن نماذج علامات الشريعة المدربة على البيانات المتفوقة على البيانات التي تجريب ضعيف تدربت على البيانات المشروحة باليد أو الاصطناعية، بتكلفة أقل. علاوة على ذلك، يؤدي التصفية اليدوية للبيانات الخاضعة للإشراف إلى انخفاض كبير في معدل خطأ العقوبة، مع السماح لنا بتقليل جهود الرعاية البشرية بشكل كبير من أسابيع إلى ساعات، فيما يتعلق بالتعليق اليدوي للاستفسارات. يتم تطبيق الطريقة بنجاح Bootstrap نظام علامات Slot لخدمة تدفق الموسيقى الرئيسية التي تخدم حاليا العديد من عشرات الآلاف من الاستفسارات الصوتية اليومية.
One of the first building blocks to create a voice assistant relates to the task of tagging entities or attributes in user queries. This can be particularly challenging when entities are in the tenth of millions, as is the case of e.g. music catalogs. Training slot tagging models at an industrial scale requires large quantities of accurately labeled user queries, which are often hard and costly to gather. On the other hand, voice assistants typically collect plenty of unlabeled queries that often remain unexploited. This paper presents a weakly-supervised methodology to label large amounts of voice query logs, enhanced with a manual filtering step. Our experimental evaluations show that slot tagging models trained on weakly-supervised data outperform models trained on hand-annotated or synthetic data, at a lower cost. Further, manual filtering of weakly-supervised data leads to a very significant reduction in Sentence Error Rate, while allowing us to drastically reduce human curation efforts from weeks to hours, with respect to hand-annotation of queries. The method is applied to successfully bootstrap a slot tagging system for a major music streaming service that currently serves several tens of thousands of daily voice queries.
المراجع المستخدمة
https://aclanthology.org/
تتطلب شبكات العصبية العميقة الحديثة من بين الفن بيانات تدريبية ذات صلة واسعة النطاق غالبا ما تكون مكلفة للحصول على أو غير متوفرة للعديد من المهام. لقد ثبت أن الإشراف ضعيف في شكل قواعد خاصة بالمجال مفيدا في مثل هذه الإعدادات لإنشاء بيانات التدريب المس
في هذه الورقة، نستكشف تصنيف النص بالإشراف الضعيف للغاية، أي بالاعتماد فقط على النص السطحي لأسماء الطبقة. هذا إعداد أكثر تحديا من الإشراف الضعيف الذي يحركه البذور، والذي يسمح بضع كلمات البذور لكل فصل. نحن نقوم باختيار مهاجمة هذه المشكلة من منظور تعليم
حقق نماذج اللغة المدربة مسبقا بشكل جيد (LMS) نجاحا هائلا في العديد من مهام معالجة اللغة الطبيعية (NLP)، لكنها لا تزال تتطلب بيانات مفرطة الحجم في مرحلة ضبط الدقيقة. ندرس مشكلة LMS المدبرة مسبقا باستخدام إشراف ضعيف فقط، دون أي بيانات معدنية. هذه المشك
لقد أظهر العمل الحديث أن نماذج اللغة المحظورة غير المؤمنة تعلمت تمثيل مفاهيم تقلص البيانات من تباين اللغة والتي يمكن استخدامها لتحديد بيانات التدريب المستهدف بالمجال. تتوفر تسميات أنواع DataSet في كثير من الأحيان، ومع ذلك لا تزال غير مستكشفة إلى حد ك
تعتمد أنظمة مجردة للاستفادة من النطاق المفتوح (OpenQA) بشكل عام على المسترد لإيجاد مقاطع مرشحة في كوربس كبيرة وقارئ لاستخراج إجابات من تلك الممرات.في العمل الحديث بكثير، المسترد هو عنصر تعلم يستخدم تمثيلات ناقلات الخشنة من الأسئلة والمرورات.نقول أن خ