ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم غير الخاضع للاستفسارات KB في الحوار الموجهة نحو المهام

Unsupervised Learning of KB Queries in Task-Oriented Dialogs

358   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

غالبا ما تحتاج أنظمة الحوار الموجهة نحو المهام (TOD) في كثير من الأحيان إلى صياغة استعلامات قاعدة المعارف (KB) المقابلة من نية المستخدم واستخدام نتائج الاستعلام لتوليد ردود النظام. تتطلب الأساليب الموجودة مجموعات بيانات حوار لتعليق هذه الاستعلامات KB بشكل صريح --- يمكن أن تكون التعليقات التوضيحية تستغرق وقتا طويلا ومكلفة. ردا على ذلك، نحدد المشكلات الجديدة للتنبؤ ب QB Query وتدريب وكيل الحوار، دون التعليق التوضيحي لاستعلام KB الصريح. بالنسبة للتنبؤ بالاستعلام، نقترح خط أساسي لتعليم التعلم (RL)، والذي يكافئ جيل هذه الاستفسارات التي تغطي نتائج KB التي تغطي الكيانات المذكورة في مربع حوار لاحق. يكشف التحليل الإضافي أن الارتباط بين سمات الاستعلام في KB يمكن أن يخلط بشكل كبير من تحسين سياسة الذاكرة المعزز (MAPO)، وهي حالة موجودة من وكيل الفن rl. لمعالجة هذا، نحسن خط الأساس Mapo مع تعديلات بسيطة ولكنها مهمة مناسبة لمهمتنا. لتدريب نظام TOD الكامل لإعدادنا، نقترح نهج خط أنابيب: إنه يتوقع بشكل مستقل عند إجراء استعلام KB (تنبئ موضع الاستعلام)، ثم يتوقع استعلام KB على الوظيفة المتوقعة (تنبئ الاستعلام)، ويستخدم نتائج استعلام متوقع في مربع حوار لاحق (تنبئ الاستجابة التالي). بشكل عام، يقترح عملنا الحلول الأولى لمشكلةنا الجديدة، وتحليلنا يسلط الضوء على التحديات البحثية في تدريب أنظمة TOM دون التعليق التوضيحي الاستعلام.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يسمح التعلم المستمر في أنظمة الحوار الموجهة نحو المهام للنظام بإضافة مجالات ووظائف جديدة للعمل الإضافي بعد النشر، دون تكبد التكلفة العالية لإعادة النظر في النظام بأكمله في كل مرة. في هذه الورقة، نقترح أول معيار تعلم مستمر على الإطلاق لأنظمة الحوار ال موجهة نحو المهام مع أن يتم تعلم 37 نطما بشكل مستمر في إعدادات التعلم المعدلة والنهاية. بالإضافة إلى ذلك، نقوم بتنفيذ ومقارنة خطوط أساسيات التعلم المستمرة المتعددة، ونقترحنا طريقة معمارية بسيطة ولكنها فعالة تعتمد على المحولات المتبقية. نشير أيضا إلى أن الأداء العلوي للتعلم المستمر يجب أن يكون يعادل التعلم المتعدد المهام عند توفر البيانات من جميع المجال في وقت واحد. توضح تجاربنا أن الطريقة المعمارية المقترحة وإجراءات استراتيجية تستند إلى إعادة التشغيل بسيطة تؤدي بشكل أفضل، من خلال هامش كبير، مقارنة بتقنيات التعلم المستمرة الأخرى، وأسوأ قليلا قليلا من العلوي المتعدد التعلم العلوي أثناء كونه 20x بشكل أسرع في تعلم النطاقات الجديدة. نحن نبلغ أيضا العديد من المفاضلات من حيث استخدام المعلمة وحجم الذاكرة ووقت التدريب، وهي مهمة في تصميم نظام حوار موجه نحو المهام. يتم إصدار المعيار المقترح لتعزيز المزيد من البحث في هذا الاتجاه.
نقترح مشكلة جديدة في مجال التعلم المنتهي في نهاية الحوار الموجهة نحو الوظيفة (TOD)، حيث يحاكي نظام مربع الحوار وكيل استكشاف الأخطاء وإصلاحها يساعد المستخدم من خلال تشخيص مشكلتهم (على سبيل المثال، السيارة لا تبدأ).ترتكز حوارات هذه الحوار في مخططات الم خططات الموسيقية الخاصة بالمجال، والتي من المفترض أن يتبع الوكيل أثناء المحادثة.تعرض مهمتنا تحديات تقنية جديدة من أجل TOD العصبي، مثل التأريض على الكلام إلى مخطط الانسيابي دون عبوات صريحة، في إشارة إلى الصفحات اليدوية الإضافية عندما يطلب المستخدم سؤالا توضيحا، والقدرة على اتباع مخططات انسيابية غير مرئية في وقت الاختبار.نقوم بإصدار مجموعة بيانات (Flodial) تتكون من 2،738 مربعا على 12 نقطة مخاطرة مختلفة لاستكشاف الأخطاء وإصلاحها.نقوم أيضا بتصميم نموذج عصبي، FLONET، والذي يستخدم بنية توليد تعزز استرجاع لتدريب وكيل الحوار.تجد تجاربنا أن الألهام يمكن أن تفعل نقل طلقة صفرية إلى مخططات انسيابية غير مرئية، ويضع خط أساس قوي للبحث في المستقبل.
نظرا لأن تكلفة وضع العلامات للوحدات المختلفة في أنظمة الحوار الموجهة نحو المهام (TOD) باهظ الثمن، فإن التحدي الرئيسي هو تدريب وحدات مختلفة بأقل قدر من البيانات المسمى. أظهرت نماذج اللغة المدربة مسبقا مؤخرا، نتائج واعدة واعدة لعدد قليل من التعلم في TO D. في هذه الورقة، نرتند نهجا للتدريب الذاتي للاستفادة من بيانات الحوار غير المسبق الوفيرة لزيادة تحسين النماذج المدربة للدولة المدربة مسبقا في سيناريوهات تعليمية قليلة لأنظمة TOD. على وجه التحديد، نقترح نهجا للتدريب الذاتي أن تستلم البيانات الأكثر ثقة أكثر ثقة لتدريب نموذج طالب أقوى. علاوة على ذلك، يقترح تقنية تكبير نص جديد (GradaG) تدريب الطالب بشكل أفضل عن طريق استبدال الرموز غير الحاسمة باستخدام نموذج لغة ملثم. نقوم بإجراء تجارب مكثفة وتحليلات موجودة على أربع مهام المصب في TOD، بما في ذلك تصنيف النوايا وتتبع ولاية الحوار وتنبؤ قانون الحوار واختيار الاستجابة. توضح النتائج التجريبية أن نهج التدريب الذاتي المقترح باستمرار يحسن باستمرار النماذج المدربة مسبقا من أحدث (بيرت، TOD-BERT-BERT) عند توفر عدد صغير فقط من البيانات المسمى.
يتطلب تحسين سياسة الحوار عبر التعلم التعزيز عددا كبيرا من التفاعلات التدريبية، مما يجعل التعلم مع المستخدمين الحقيقيين الوقت المستهلكة ومكلفة. لذلك يعتمد العديد من الإعدادات على محاكاة المستخدم بدلا من البشر. لدى محاكاة المستخدم هذه مشاكلهم الخاصة. ف ي حين أن محاكاة المستخدمين المشفرة باليد، فقد ثبت أن محاكاة المستخدمين الذين يعتمدون على القواعد كافية في المجالات الصغيرة والبسيطة، لأن عدد القواعد المعقدة بسرعة أصلي. لا تزال محاكاة المستخدم التي يحركها بيانات البيانات، من ناحية أخرى، تعتمد على المجال. هذا يعني أن التكيف مع كل مجال جديد يتطلب إعادة تصميم وإعادة التدريب. في هذا العمل، نقترح محاكاة للمستخدم المستقل المستقل للمجال (TUS). لا يتم ربط هيكل TUS مجال معين، وتمكين تعميم المجال وتعلم سلوك المستخدم عبر المجال من البيانات. نحن نقارن TUS مع أحدث التقيمات التلقائية وكذلك الإنسان. يمكن أن يتنافس TUS مع محاكاة المستخدمين المستند إلى القواعد على المجالات المحددة مسبقا ويمكن أن يعممون إلى المجالات غير المرئية في أزياء صفرية.
تعلم أنظمة الحوار الموجهة نحو المهمة الحديثة نموذجا من الحوارات المشروح، وتحول هذه الحوارات بدورها يتم جمعها وتفاحها بحيث تكون متسقة مع معرفة مجال معينة. ومع ذلك، في السيناريوهات الحقيقية، تخضع معارف المجال للتغييرات المتكررة، وقد تصبح حوارات التدريب الأولي قد تصبح عفا عليها الزمن، مما يؤدي إلى انخفاض كبير في الأداء النموذجي. في هذه الورقة، نحقق في العلاقة بين الحوارات التدريبية ومعرفة المجال، واقتراح تكيف مجال الحوار، وهي منهجية تهدف إلى تكييف حوارات التدريب الأولي للتغييرات تدخلت في معرفة المجال. نحن نركز على تغييرات قيمة الفتحة (على سبيل المثال، عندما تتوفر قيم فتحة جديدة لوصف كيانات المجال) وتحديد إعداد تجريبي لتتكيف مع نطاق الحوار. أولا، نوضح أن النماذج الحالية للحالة لتتبع حالة الحوار لا تزال قوية تقريبا للتغيرات ذات قيمة الفتحة لمعرفة المجال. بعد ذلك، نقارن استراتيجيات مختلفة التكيف عن نطاق التكيف، مما يدل على أن التقنيات البسيطة فعالة لتقليل الفجوة بين حوارات التدريب ومعرفة المجال.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا