ترغب بنشر مسار تعليمي؟ اضغط هنا

منذ فترة طويلة انتهت التقييم التلقائي الموثوق لأنظمة الحوار بموجب بيئة تفاعلية. تحتاج بيئة مثالية لتقييم أنظمة الحوار، المعروفة أيضا باسم اختبار Turing، إلى إشراك التفاعل البشري، وعادة ما تكون غير متناول تجارب واسعة النطاق. على الرغم من أن الباحثين ق د حاولوا استخدام مقاييس مهام توليد اللغة (على سبيل المثال، الحيرة، بلو) أو بعض طرق التعزيز القائمة على الطراز (مثل تقييم التشغيل الذاتي) للتقييم التلقائي، إلا أن هذه الطرق تظهر فقط ارتباط ضعيف للغاية مع التقييم البشري الفعلي في التمرين. لكسر هذه الفجوة، نقترح إطارا جديدا يدعى لغز لتقدير درجات التقييم البشرية بناء على التقدم الأخير للتقييم خارج السياسات في التعلم التعزيز. يتطلب Enigma فقط حفنة من بيانات الخبرة التي تم جمعها مسبقا، وبالتالي لا تنطوي على تفاعل بشري مع السياسة المستهدفة أثناء التقييم، مما يجعل التقييمات التلقائية الممكنة. والأهم من ذلك أن Enigma هو خال من النموذج والأذرع لسياسات السلوك لجمع بيانات الخبرة، مما يخفف بشكل كبير الصعوبات التقنية في بيئات الحوار المعقدة النمذجة والسلوكيات البشرية. تظهر تجاربنا أن لغز تتفوق بشكل كبير على الأساليب الحالية من حيث الارتباط مع درجات التقييم البشري.
يسمح التعلم المستمر في أنظمة الحوار الموجهة نحو المهام للنظام بإضافة مجالات ووظائف جديدة للعمل الإضافي بعد النشر، دون تكبد التكلفة العالية لإعادة النظر في النظام بأكمله في كل مرة. في هذه الورقة، نقترح أول معيار تعلم مستمر على الإطلاق لأنظمة الحوار ال موجهة نحو المهام مع أن يتم تعلم 37 نطما بشكل مستمر في إعدادات التعلم المعدلة والنهاية. بالإضافة إلى ذلك، نقوم بتنفيذ ومقارنة خطوط أساسيات التعلم المستمرة المتعددة، ونقترحنا طريقة معمارية بسيطة ولكنها فعالة تعتمد على المحولات المتبقية. نشير أيضا إلى أن الأداء العلوي للتعلم المستمر يجب أن يكون يعادل التعلم المتعدد المهام عند توفر البيانات من جميع المجال في وقت واحد. توضح تجاربنا أن الطريقة المعمارية المقترحة وإجراءات استراتيجية تستند إلى إعادة التشغيل بسيطة تؤدي بشكل أفضل، من خلال هامش كبير، مقارنة بتقنيات التعلم المستمرة الأخرى، وأسوأ قليلا قليلا من العلوي المتعدد التعلم العلوي أثناء كونه 20x بشكل أسرع في تعلم النطاقات الجديدة. نحن نبلغ أيضا العديد من المفاضلات من حيث استخدام المعلمة وحجم الذاكرة ووقت التدريب، وهي مهمة في تصميم نظام حوار موجه نحو المهام. يتم إصدار المعيار المقترح لتعزيز المزيد من البحث في هذا الاتجاه.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا