ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم المستمر في نظم الحوار الموجهة نحو المهام

Continual Learning in Task-Oriented Dialogue Systems

369   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يسمح التعلم المستمر في أنظمة الحوار الموجهة نحو المهام للنظام بإضافة مجالات ووظائف جديدة للعمل الإضافي بعد النشر، دون تكبد التكلفة العالية لإعادة النظر في النظام بأكمله في كل مرة. في هذه الورقة، نقترح أول معيار تعلم مستمر على الإطلاق لأنظمة الحوار الموجهة نحو المهام مع أن يتم تعلم 37 نطما بشكل مستمر في إعدادات التعلم المعدلة والنهاية. بالإضافة إلى ذلك، نقوم بتنفيذ ومقارنة خطوط أساسيات التعلم المستمرة المتعددة، ونقترحنا طريقة معمارية بسيطة ولكنها فعالة تعتمد على المحولات المتبقية. نشير أيضا إلى أن الأداء العلوي للتعلم المستمر يجب أن يكون يعادل التعلم المتعدد المهام عند توفر البيانات من جميع المجال في وقت واحد. توضح تجاربنا أن الطريقة المعمارية المقترحة وإجراءات استراتيجية تستند إلى إعادة التشغيل بسيطة تؤدي بشكل أفضل، من خلال هامش كبير، مقارنة بتقنيات التعلم المستمرة الأخرى، وأسوأ قليلا قليلا من العلوي المتعدد التعلم العلوي أثناء كونه 20x بشكل أسرع في تعلم النطاقات الجديدة. نحن نبلغ أيضا العديد من المفاضلات من حيث استخدام المعلمة وحجم الذاكرة ووقت التدريب، وهي مهمة في تصميم نظام حوار موجه نحو المهام. يتم إصدار المعيار المقترح لتعزيز المزيد من البحث في هذا الاتجاه.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

غالبا ما تحتاج أنظمة الحوار الموجهة نحو المهام (TOD) في كثير من الأحيان إلى صياغة استعلامات قاعدة المعارف (KB) المقابلة من نية المستخدم واستخدام نتائج الاستعلام لتوليد ردود النظام. تتطلب الأساليب الموجودة مجموعات بيانات حوار لتعليق هذه الاستعلامات KB بشكل صريح --- يمكن أن تكون التعليقات التوضيحية تستغرق وقتا طويلا ومكلفة. ردا على ذلك، نحدد المشكلات الجديدة للتنبؤ ب QB Query وتدريب وكيل الحوار، دون التعليق التوضيحي لاستعلام KB الصريح. بالنسبة للتنبؤ بالاستعلام، نقترح خط أساسي لتعليم التعلم (RL)، والذي يكافئ جيل هذه الاستفسارات التي تغطي نتائج KB التي تغطي الكيانات المذكورة في مربع حوار لاحق. يكشف التحليل الإضافي أن الارتباط بين سمات الاستعلام في KB يمكن أن يخلط بشكل كبير من تحسين سياسة الذاكرة المعزز (MAPO)، وهي حالة موجودة من وكيل الفن rl. لمعالجة هذا، نحسن خط الأساس Mapo مع تعديلات بسيطة ولكنها مهمة مناسبة لمهمتنا. لتدريب نظام TOD الكامل لإعدادنا، نقترح نهج خط أنابيب: إنه يتوقع بشكل مستقل عند إجراء استعلام KB (تنبئ موضع الاستعلام)، ثم يتوقع استعلام KB على الوظيفة المتوقعة (تنبئ الاستعلام)، ويستخدم نتائج استعلام متوقع في مربع حوار لاحق (تنبئ الاستجابة التالي). بشكل عام، يقترح عملنا الحلول الأولى لمشكلةنا الجديدة، وتحليلنا يسلط الضوء على التحديات البحثية في تدريب أنظمة TOM دون التعليق التوضيحي الاستعلام.
تعلم أنظمة الحوار الموجهة نحو المهمة الحديثة نموذجا من الحوارات المشروح، وتحول هذه الحوارات بدورها يتم جمعها وتفاحها بحيث تكون متسقة مع معرفة مجال معينة. ومع ذلك، في السيناريوهات الحقيقية، تخضع معارف المجال للتغييرات المتكررة، وقد تصبح حوارات التدريب الأولي قد تصبح عفا عليها الزمن، مما يؤدي إلى انخفاض كبير في الأداء النموذجي. في هذه الورقة، نحقق في العلاقة بين الحوارات التدريبية ومعرفة المجال، واقتراح تكيف مجال الحوار، وهي منهجية تهدف إلى تكييف حوارات التدريب الأولي للتغييرات تدخلت في معرفة المجال. نحن نركز على تغييرات قيمة الفتحة (على سبيل المثال، عندما تتوفر قيم فتحة جديدة لوصف كيانات المجال) وتحديد إعداد تجريبي لتتكيف مع نطاق الحوار. أولا، نوضح أن النماذج الحالية للحالة لتتبع حالة الحوار لا تزال قوية تقريبا للتغيرات ذات قيمة الفتحة لمعرفة المجال. بعد ذلك، نقارن استراتيجيات مختلفة التكيف عن نطاق التكيف، مما يدل على أن التقنيات البسيطة فعالة لتقليل الفجوة بين حوارات التدريب ومعرفة المجال.
تهدف هذه الورقة إلى تقديم نظرة عامة شاملة للتطورات الأخيرة في تتبع حكمة الحوار (DST) لأنظمة المحادثات الموجهة نحو المهام.نقدم المهمة، وخاصة البيانات الرئيسية التي تم استغلالها وكذلك مقاييس تقييمها، ونحن نحلل العديد من النهج المقترحة.نحن نميز بين نماذ ج DST غير الثابتة، والتي تتنبأ بمجموعة ثابتة من دول الحوار، ونماذج الأطباق الديناميكية، والتي يمكن أن تتنبؤ حوار الحوار حتى عندما تتغير عملية الأونولوجيا.ونناقش أيضا قدرة النموذج على تتبع النطاقات الفردية أو المتعددة والقياس إلى مجالات جديدة، سواء من حيث نقل المعرفة والتعلم الصفر.نحن نغطي فترة من عام 2013 إلى 2020، مما يدل على زيادة كبيرة في أساليب مجال متعددة، ومعظمها باستخدام نماذج اللغة المدربة مسبقا.
يتطلب تحسين سياسة الحوار عبر التعلم التعزيز عددا كبيرا من التفاعلات التدريبية، مما يجعل التعلم مع المستخدمين الحقيقيين الوقت المستهلكة ومكلفة. لذلك يعتمد العديد من الإعدادات على محاكاة المستخدم بدلا من البشر. لدى محاكاة المستخدم هذه مشاكلهم الخاصة. ف ي حين أن محاكاة المستخدمين المشفرة باليد، فقد ثبت أن محاكاة المستخدمين الذين يعتمدون على القواعد كافية في المجالات الصغيرة والبسيطة، لأن عدد القواعد المعقدة بسرعة أصلي. لا تزال محاكاة المستخدم التي يحركها بيانات البيانات، من ناحية أخرى، تعتمد على المجال. هذا يعني أن التكيف مع كل مجال جديد يتطلب إعادة تصميم وإعادة التدريب. في هذا العمل، نقترح محاكاة للمستخدم المستقل المستقل للمجال (TUS). لا يتم ربط هيكل TUS مجال معين، وتمكين تعميم المجال وتعلم سلوك المستخدم عبر المجال من البيانات. نحن نقارن TUS مع أحدث التقيمات التلقائية وكذلك الإنسان. يمكن أن يتنافس TUS مع محاكاة المستخدمين المستند إلى القواعد على المجالات المحددة مسبقا ويمكن أن يعممون إلى المجالات غير المرئية في أزياء صفرية.
فهم اللغة المنطوقة، عادة بما في ذلك اكتشاف النوايا وملء الفتحات، هو مكون أساسي لبناء نظام حوار منطوق. تظهر الأبحاث الحديثة نتائج واعدة من خلال التعلم المشترك بين هذين المهامتين بناء على حقيقة أن ملء الفتحة والكشف عن النوايا تشارك المعرفة الدلالية. عل اوة على ذلك، فإن آلية الاهتمام تعزز التعلم المشترك لتحقيق نتائج أحدث من الفن. ومع ذلك، فإن نماذج التعلم المشتركة الحالية تتجاهل الحقائق المهمة التالية: 1. لا يتم تتبع سياق فتحة طويلة الأجل بشكل فعال، وهو أمر حاسم لملء الفتحات المستقبلية. 2. يمكن أن تكون الفتحة وعلامات الكشف عن النية مجزية بشكل متبادل، ولكن التفاعل ثنائي الاتجاه بين ملء الفتحات والكشف عن النوايا لا يزال نادرا ما تم استكشافه. في هذه الورقة، نقترح نهجا جديدا لنموذج سياق فتحة طويلة الأجل واستخدام العلاقة الدلالية بالكامل بين الفتحات والمحالة. نعتمد شبكة الذاكرة ذات القيمة الرئيسية لنموذج سياق الفتحة ديناميكيا وتتبع علامات فتحة أكثر أهمية فك شفرة من قبل، والتي يتم تغذيتها بعد ذلك في وحدة فك التشفير الخاصة بنا للحصول على علامات الفتحة. علاوة على ذلك، يتم استخدام معلومات الذاكرة الدائرية لأداء الكشف عن النية، وتحسين المهام المتبادلة من خلال التحسين العالمي. تظهر التجارب على معيار ATIS و SHITS DataSets أن نموذجنا يحقق أداء حديثة وتفوق على طرق أخرى، خاصة بالنسبة لمهمة ملء الفتحة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا