في حين أن التعرف على الكيان المسمى (NER) من الكلام كان موجودا طالما أن NER من نص مكتوب لديه، فإن دقة NER من الكلام كانت أيضا أقل بكثير من NER من النص. يبرز ارتفاع شعبية أنظمة الحوار المنطوقة مثل Siri أو Alexa الحاجة إلى أكثر دقة من الكلام من الكلام ل
أن NER هو مكون أساسي لفهم ما قاله المستخدمون في الحوار. تتلقى أنظمة الحوار المنطوقة المنطوقة إدخال المستخدم في شكل نصوص التعرف على الكلام التلقائي (ASR)، وببساطة تطبيق نموذج NER المدربين على النص المكتوب إلى نصوص ASR غالبا ما يؤدي إلى دقة منخفضة لأنها مقارنة بالنص المكتبكي، تفتقر نصوص ASR إلى إشارات مهمة مثل علامات الترقيم والرسملة. علاوة على ذلك، فإن الأخطاء في نصوص العصر تجعل أيضا NER من الكلام الصعب. نقترح نماذجين تستغلوا أدلة سياق الحوار ونمط الكلام لاستخراج الكيانات المسماة بدقة أكثر دقة من مربعات الحوار المفتوحة في أنظمة الحوار المنطوقة. تظهر نتائجنا الاستفادة من سياق حوار النمذجة وأنماط الكلام في إعدادتين: إعداد قياسي مع قسم عشوائي من البيانات وأكثر واقعية من الإعداد ولكن أيضا أكثر صعوبة حيث تكون العديد من الكيانات المسماة التي تمت مواجهتها أثناء النشر غير مرئي أثناء التدريب.
يتطلب تحسين سياسة الحوار عبر التعلم التعزيز عددا كبيرا من التفاعلات التدريبية، مما يجعل التعلم مع المستخدمين الحقيقيين الوقت المستهلكة ومكلفة. لذلك يعتمد العديد من الإعدادات على محاكاة المستخدم بدلا من البشر. لدى محاكاة المستخدم هذه مشاكلهم الخاصة. ف
ي حين أن محاكاة المستخدمين المشفرة باليد، فقد ثبت أن محاكاة المستخدمين الذين يعتمدون على القواعد كافية في المجالات الصغيرة والبسيطة، لأن عدد القواعد المعقدة بسرعة أصلي. لا تزال محاكاة المستخدم التي يحركها بيانات البيانات، من ناحية أخرى، تعتمد على المجال. هذا يعني أن التكيف مع كل مجال جديد يتطلب إعادة تصميم وإعادة التدريب. في هذا العمل، نقترح محاكاة للمستخدم المستقل المستقل للمجال (TUS). لا يتم ربط هيكل TUS مجال معين، وتمكين تعميم المجال وتعلم سلوك المستخدم عبر المجال من البيانات. نحن نقارن TUS مع أحدث التقيمات التلقائية وكذلك الإنسان. يمكن أن يتنافس TUS مع محاكاة المستخدمين المستند إلى القواعد على المجالات المحددة مسبقا ويمكن أن يعممون إلى المجالات غير المرئية في أزياء صفرية.
تعد القدرة على اتخاذها بطريقة بطلاقة (أي تأخير طويل للاستجابة أو الانقطاعات المتكررة) جوانب أساسية من أي نظام حوار منطوق.ومع ذلك، فإن خدمات التعرف على الكلام العملي تحفز عادة تأخير استجابة طويل، حيث يستغرق الأمر وقتا قبل معالجة كلام المستخدم.هناك قدر
كبير من الأبحاث التي تشير إلى أن البشر يحققون أوقات الاستجابة السريعة من خلال إظهار ما سيقوله المحاور ويقدر إكمال الدورات المقبلة.في هذا العمل، نقوم بتنفيذ هذه الآلية في نظام حوار منطوق تدريجي، باستخدام نموذج لغة يولد العقود المستقبلية المحتملة لمشروع نقاط الإنجاز القادمة.من الناحية النظرية، قد يجعل هذا النظام أكثر استجابة، في حين لا يزال الوصول إلى المعلومات الدلالية التي لم تتم معالجتها بعد بواسطة التعرف على الكلام.نقوم بإجراء دراسة صغيرة تشير إلى أن هذا نهج قابل للحياة لأنظمة الحوار العملية، وأن هذا اتجاه واعد للبحث في المستقبل.