ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم الفعال للحوار السياسي التكميلي عبر سياسة شبكة Q-Network العميقة وسياسة الذاكرة العرضية

Efficient Dialogue Complementary Policy Learning via Deep Q-network Policy and Episodic Memory Policy

483   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أظهر تعلم التعزيز العميق إمكانات كبيرة في سياسات الحوار التدريبية. ومع ذلك، فإن أدائها المواتي يأتي بتكلفة العديد من جولات التفاعل. تعتمد معظم أساليب سياسة الحوار الحالية على نظام تعليمي واحد، في حين أن الدماغ البشري يحتوي على نظامين لتعلم وذاكرة متخصصين، يدعمان لإيجاد حلول جيدة دون الحاجة إلى أمثلة غزيرة. مستوحاة من الدماغ البشري، تقترح هذه الورقة إطار عمل لتعلم السياسات التكميلي الرواية (CPL)، والتي تستغل المزايا التكميلية لسياسة الذاكرة العرضية (EM) وسياسة شبكة Q-Network (DQN) العميقة لتحقيق تعلم سياسة حوار سريعة وفعالة وبعد من أجل التنسيق بين السياسة، اقترحنا وحدة تحكم الثقة للسيطرة على الوقت التكميلي وفقا لفعولتها النسبية في مراحل مختلفة. علاوة على ذلك، يتم اقتراح اتصال الذاكرة وتقليم الوقت لضمان التعميم المرن والتكيف للسياسة EM في مهام الحوار. تظهر النتائج التجريبية على ثلاث مجموعات بيانات الحوار أن طريقتنا تتفوق بشكل كبير على الطرق الحالية التي تعتمد على نظام تعليمي واحد.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لا ينبغي أن يؤدي نظام الحوار الذكي في إعداد متعدد المنعطف إلى إنشاء الاستجابات فقط من نوعية جيدة، ولكن يجب أن تولد أيضا الردود التي يمكن أن تؤدي إلى نجاح طويل الأجل للحوار. على الرغم من أن الأساليب الحالية تحسنت جودة الاستجابة، إلا أنها تنظر إلى الإش ارات التدريبية الموجودة في بيانات الحوار. يمكننا الاستفادة من هذه الإشارات لتوليد بيانات التدريب الإشراف ضعيف لسياسة حوار التعلم ومقدر المكافآت، وجعل السياسة تتخذ إجراءات (يولد الردود) التي يمكن أن تتوقع الاتجاه المستقبلي للمحادثة الناجحة (مكافأة). نحاكي الحوار بين وكيل ومستخدم (على غرار وكيل مع هدف التعلم الخاضع للإشراف) للتفاعل مع بعضها البعض. يستخدم الوكيل حدودا ديناميكيا لإنشاء ردود متنوعة في المرتبة واستغلال الاستكشاف لتحديد عدد الردود الأعلى. يتم تقييم كل زوج عمل محاكي لحالة الدولة (يعمل كشروح ضعيفة) مع ثلاث وحدات الجودة: الدلالي ذات الصلة والتماسك الدلالي وتدفق متسق. تشير الدراسات التجريبية التي لديها معيارين إلى أن طرازنا يمكن أن نفذت بشكل كبير جودة الاستجابة وتؤدي إلى محادثة ناجحة على كل من التقييم التلقائي والحكم البشري.
لقد ثبت أن التدريبات متعددة المهام مع المهام الإضافية يمكن أن تحسن جودة المهمة المستهدفة من خلال نقل المهام العابر.ومع ذلك، من المحتمل أن تكون أهمية كل مهمة مساعدة للمهمة الأساسية غير معروفة مسبقا.في حين أن أهمية الأثقال ذات المهام الإضافية يمكن ضبطه ا يدويا، إلا أنها تصبح عمليا غير قابلة للتنفيذ مع عدد المهام.لمعالجة هذا، نقترح طريقة بحث تقوم تلقائيا بتعيين الأوزان الأهمية.نقوم بصياغة ذلك كمشكلة تعليمية للتعزيز وتعلم جدول أخذ عينات من المهام بناء على دقة تقييم النموذج متعدد المهام.يوضح تقييمنا التجريبي على XNLI والغراء أن أسلوبنا تتفوق على أخذ العينات الموحدة والساعي الأساسي المهمة الموحدة المقابلة.
بعد نجاح اهتمام DOT-Product في المحولات، تم اقتراح تقريب عديدة مؤخرا لمعالجة تعقيدها التربيعي فيما يتعلق بطول الإدخال. في حين أن هذه المتغيرات هي الذاكرة وتحسب كفاءة، فمن غير الممكن استخدامها مباشرة مع نماذج اللغة المدربة مسبقا مسبقا تدربت باستخدام ا هتمام الفانيليا، دون مرحلة ما قبل التدريب التصحيحية باهظة الثمن. في هذا العمل، نقترح تقريب بسيط ولكن دقيق للغاية لاهتمام الفانيليا. نقوم بمعالجة الاستعلامات في قطع، ولكل عملية استعلام، حساب أعلى الدرجات * K * فيما يتعلق بالمفاتيح. يوفر نهجنا عدة مزايا: (أ) استخدام ذاكرةه خطي في حجم الإدخال، على غرار متغيرات الانتباه الخطي، مثل أداء و RFA (B) هو استبدال انخفاض في انتباه الفانيليا الذي لا يتطلب أي تصحيحية -إجراء (ج) يمكن أن يؤدي أيضا إلى وفورات كبيرة في الذاكرة في طبقات الأعلاف إلى الأمام بعد إلقاءها في إطار القيمة المألوفة ذات القيمة الرئيسية. نحن نقيم جودة أعلى - * K * تقريب طبقات الاهتمام متعدد الأطراف على أساس الساحة الطويلة المدى، وللطبقات التغذية من T5 و unifectqa على مجموعات بيانات QA متعددة. نظرا لأن نهجنا يؤدي إلى الدقة التي تظل مما يقرب من انتباه الفانيليا في إكمال متعددة بما في ذلك التدريب من الصفر والضبط الناعم والاستدلال بالرصاص الصفر.
القدرة على تحديد وحل عدم اليقين أمر بالغ الأهمية لأغاني نظام الحوار. في الواقع، تم تأكيد ذلك بشكل تجريبي على الأنظمة التي تستخدم مناهج Bayesian لحوار تتبع الاعتقاد. ومع ذلك، فإن هذه الأنظمة تعتبر تقديرات الثقة فقط وتواجه صعوبة في التحجيم إلى إعدادات أكثر تعقيدا. نادرا ما تؤدي أنظمة الحوار العصبي، من ناحية أخرى إلى عدم اليقين في الاعتبار. لذلك فهي تفرد في قراراتهم وأقل قوة. علاوة على ذلك، غالبا ما يتم تقييم أداء مهمة التتبع بمعزل، دون النظر في تأثيره على تحسين السياسة المصب. نقترح استخدام تدابير عدم اليقين المختلفة لتتبع الاعتقاد العصبي. يتم تقييم آثار هذه التدابير على المهمة المهمة المصب للمهمة من تحسين السياسة بإضافة تدابير مختارة من عدم اليقين إلى مساحة ميزة سياسات السياسات والتدريب من خلال التفاعل مع جهاز محاكاة المستخدم. يظهر كل من نتائج المستخدمين البشري والمحاكاة أن إدماج هذه التدابير يؤدي إلى تحسين كل من الأداء وبقوة سياسة الحوار المصب. هذا يسلط الضوء على أهمية تطوير تعقب اعتقاد الحوار العصبي التي تأخذ عدم اليقين في الاعتبار.
تم تطبيق التعلم المتعاقد بنجاح على تعلم تمثيلات ناقلات النص.أظهرت الأبحاث السابقة أن تعلم التمثيلات عالية الجودة يستفيد من الخسارة المنتاقبة ذات الدفعة الحكيمة مع عدد كبير من السلبيات.في الممارسة العملية، يتم استخدام تقنية السلبية الداخلية، حيث سيتم أخذ إيجازات مثال على كل مثال في دفعة أو أمثلة دفعة أخرى كملقياتها، وتجنب ترميز السلبيات الإضافية.ومع ذلك، ومع ذلك، لا تزال هذه الشروط خسارة كل مثال على جميع الأمثلة الدفاعية وتتطلب تركيب الدفعة الكبيرة بأكملها في ذاكرة GPU.تقدم هذه الورقة تقنية مخزئة للتدرج التي تعود فيها العدوى بين الخسارة الناقضة والتشمس، وإزالة التبعية لتشفير الترميز إلى الوراء على طول البعد الدفوع.نتيجة لذلك، يمكن حساب التدرجات لمجموعة فرعية واحدة من الدفعة في وقت واحد، مما يؤدي إلى استخدام الذاكرة المستمر تقريبا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا