بحث متقدم مدعوم من الذكاء الصنعي

مساحة جديدة

اشترك بالحزمة الذهبية واحصل على وصول غير محدود شمرا أكاديميا

تسجيل مستخدم جديد

التعلم الفعال للحوار السياسي التكميلي عبر سياسة شبكة Q-Network العميقة وسياسة الذاكرة العرضية

Efficient Dialogue Complementary Policy Learning via Deep Q-network Policy and Episodic Memory Policy

1072 0 0 0.0 ( 0 )

تحميل البحث استخدام كمرجع

نشر من قبل جمعية اللغويات الحاسوبية ACL مقالة

تاريخ النشر 2021

مجال البحث الذكاء الاصناعي

والبحث باللغة English

تمت اﻹضافة من قبل Shamra Editor

deep q-network policy deep q-network complementary policy learning سياسة شبكة Q-Network شبكة Q عميقة السياسة التكميلية التعلم صناعة حمض الفوسفور

قم بزيارة صفحتنا على فيسبوك

‎Shamra Academia - شمرا أكاديميا‎

اسأل ChatGPT حول البحث

الملخص بالعربية الملخص بالإنكليزية

أظهر تعلم التعزيز العميق إمكانات كبيرة في سياسات الحوار التدريبية. ومع ذلك، فإن أدائها المواتي يأتي بتكلفة العديد من جولات التفاعل. تعتمد معظم أساليب سياسة الحوار الحالية على نظام تعليمي واحد، في حين أن الدماغ البشري يحتوي على نظامين لتعلم وذاكرة متخصصين، يدعمان لإيجاد حلول جيدة دون الحاجة إلى أمثلة غزيرة. مستوحاة من الدماغ البشري، تقترح هذه الورقة إطار عمل لتعلم السياسات التكميلي الرواية (CPL)، والتي تستغل المزايا التكميلية لسياسة الذاكرة العرضية (EM) وسياسة شبكة Q-Network (DQN) العميقة لتحقيق تعلم سياسة حوار سريعة وفعالة وبعد من أجل التنسيق بين السياسة، اقترحنا وحدة تحكم الثقة للسيطرة على الوقت التكميلي وفقا لفعولتها النسبية في مراحل مختلفة. علاوة على ذلك، يتم اقتراح اتصال الذاكرة وتقليم الوقت لضمان التعميم المرن والتكيف للسياسة EM في مهام الحوار. تظهر النتائج التجريبية على ثلاث مجموعات بيانات الحوار أن طريقتنا تتفوق بشكل كبير على الطرق الحالية التي تعتمد على نظام تعليمي واحد.

المراجع المستخدمة

https://aclanthology.org/

قيم البحث

1002 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

لا ينبغي أن يؤدي نظام الحوار الذكي في إعداد متعدد المنعطف إلى إنشاء الاستجابات فقط من نوعية جيدة، ولكن يجب أن تولد أيضا الردود التي يمكن أن تؤدي إلى نجاح طويل الأجل للحوار. على الرغم من أن الأساليب الحالية تحسنت جودة الاستجابة، إلا أنها تنظر إلى الإش ارات التدريبية الموجودة في بيانات الحوار. يمكننا الاستفادة من هذه الإشارات لتوليد بيانات التدريب الإشراف ضعيف لسياسة حوار التعلم ومقدر المكافآت، وجعل السياسة تتخذ إجراءات (يولد الردود) التي يمكن أن تتوقع الاتجاه المستقبلي للمحادثة الناجحة (مكافأة). نحاكي الحوار بين وكيل ومستخدم (على غرار وكيل مع هدف التعلم الخاضع للإشراف) للتفاعل مع بعضها البعض. يستخدم الوكيل حدودا ديناميكيا لإنشاء ردود متنوعة في المرتبة واستغلال الاستكشاف لتحديد عدد الردود الأعلى. يتم تقييم كل زوج عمل محاكي لحالة الدولة (يعمل كشروح ضعيفة) مع ثلاث وحدات الجودة: الدلالي ذات الصلة والتماسك الدلالي وتدفق متسق. تشير الدراسات التجريبية التي لديها معيارين إلى أن طرازنا يمكن أن نفذت بشكل كبير جودة الاستجابة وتؤدي إلى محادثة ناجحة على كل من التقييم التلقائي والحكم البشري.

reward estimation weakly supervised dialogue supervised dialogue policy تقدير المكافأة الحوار الخاضع للإشراف سياسة الحوار الخاضعة للإشراف صناعة حمض الفوسفور المزيد..

سياسة أخذ عينات مهمة التعلم للتعلم المتعدد

1128 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

لقد ثبت أن التدريبات متعددة المهام مع المهام الإضافية يمكن أن تحسن جودة المهمة المستهدفة من خلال نقل المهام العابر.ومع ذلك، من المحتمل أن تكون أهمية كل مهمة مساعدة للمهمة الأساسية غير معروفة مسبقا.في حين أن أهمية الأثقال ذات المهام الإضافية يمكن ضبطه ا يدويا، إلا أنها تصبح عمليا غير قابلة للتنفيذ مع عدد المهام.لمعالجة هذا، نقترح طريقة بحث تقوم تلقائيا بتعيين الأوزان الأهمية.نقوم بصياغة ذلك كمشكلة تعليمية للتعزيز وتعلم جدول أخذ عينات من المهام بناء على دقة تقييم النموذج متعدد المهام.يوضح تقييمنا التجريبي على XNLI والغراء أن أسلوبنا تتفوق على أخذ العينات الموحدة والساعي الأساسي المهمة الموحدة المقابلة.

policy for multitask task sampling policy سياسة متعددة المهام سياسة أخذ العينات المهمة صناعة حمض الفوسفور

محولات كفاءة الذاكرة عبر اهتمام Top-K

794 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

بعد نجاح اهتمام DOT-Product في المحولات، تم اقتراح تقريب عديدة مؤخرا لمعالجة تعقيدها التربيعي فيما يتعلق بطول الإدخال. في حين أن هذه المتغيرات هي الذاكرة وتحسب كفاءة، فمن غير الممكن استخدامها مباشرة مع نماذج اللغة المدربة مسبقا مسبقا تدربت باستخدام ا هتمام الفانيليا، دون مرحلة ما قبل التدريب التصحيحية باهظة الثمن. في هذا العمل، نقترح تقريب بسيط ولكن دقيق للغاية لاهتمام الفانيليا. نقوم بمعالجة الاستعلامات في قطع، ولكل عملية استعلام، حساب أعلى الدرجات * K * فيما يتعلق بالمفاتيح. يوفر نهجنا عدة مزايا: (أ) استخدام ذاكرةه خطي في حجم الإدخال، على غرار متغيرات الانتباه الخطي، مثل أداء و RFA (B) هو استبدال انخفاض في انتباه الفانيليا الذي لا يتطلب أي تصحيحية -إجراء (ج) يمكن أن يؤدي أيضا إلى وفورات كبيرة في الذاكرة في طبقات الأعلاف إلى الأمام بعد إلقاءها في إطار القيمة المألوفة ذات القيمة الرئيسية. نحن نقيم جودة أعلى - * K * تقريب طبقات الاهتمام متعدد الأطراف على أساس الساحة الطويلة المدى، وللطبقات التغذية من T5 و unifectqa على مجموعات بيانات QA متعددة. نظرا لأن نهجنا يؤدي إلى الدقة التي تظل مما يقرب من انتباه الفانيليا في إكمال متعددة بما في ذلك التدريب من الصفر والضبط الناعم والاستدلال بالرصاص الصفر.

memory-efficient transformers transformers via top-k top-k attention محولات كفاءة الذاكرة المحولات عبر Top-K اهتمام Top-K صناعة حمض الفوسفور المزيد..

تدابير عدم اليقين في تتبع الاعتقاد العصبي والآثار على أداء سياسة الحوار

905 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

القدرة على تحديد وحل عدم اليقين أمر بالغ الأهمية لأغاني نظام الحوار. في الواقع، تم تأكيد ذلك بشكل تجريبي على الأنظمة التي تستخدم مناهج Bayesian لحوار تتبع الاعتقاد. ومع ذلك، فإن هذه الأنظمة تعتبر تقديرات الثقة فقط وتواجه صعوبة في التحجيم إلى إعدادات أكثر تعقيدا. نادرا ما تؤدي أنظمة الحوار العصبي، من ناحية أخرى إلى عدم اليقين في الاعتبار. لذلك فهي تفرد في قراراتهم وأقل قوة. علاوة على ذلك، غالبا ما يتم تقييم أداء مهمة التتبع بمعزل، دون النظر في تأثيره على تحسين السياسة المصب. نقترح استخدام تدابير عدم اليقين المختلفة لتتبع الاعتقاد العصبي. يتم تقييم آثار هذه التدابير على المهمة المهمة المصب للمهمة من تحسين السياسة بإضافة تدابير مختارة من عدم اليقين إلى مساحة ميزة سياسات السياسات والتدريب من خلال التفاعل مع جهاز محاكاة المستخدم. يظهر كل من نتائج المستخدمين البشري والمحاكاة أن إدماج هذه التدابير يؤدي إلى تحسين كل من الأداء وبقوة سياسة الحوار المصب. هذا يسلط الضوء على أهمية تطوير تعقب اعتقاد الحوار العصبي التي تأخذ عدم اليقين في الاعتبار.

neural belief tracking belief tracking dialogue belief tracking تتبع الاعتقاد العصبي تتبع المعتقد إيمان الحوار تتبع صناعة حمض الفوسفور المزيد..

تحجيم حجم دفعة التعلم المتعاقبة عميق تحت الذاكرة محدودة الإعداد

483 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تم تطبيق التعلم المتعاقد بنجاح على تعلم تمثيلات ناقلات النص.أظهرت الأبحاث السابقة أن تعلم التمثيلات عالية الجودة يستفيد من الخسارة المنتاقبة ذات الدفعة الحكيمة مع عدد كبير من السلبيات.في الممارسة العملية، يتم استخدام تقنية السلبية الداخلية، حيث سيتم أخذ إيجازات مثال على كل مثال في دفعة أو أمثلة دفعة أخرى كملقياتها، وتجنب ترميز السلبيات الإضافية.ومع ذلك، ومع ذلك، لا تزال هذه الشروط خسارة كل مثال على جميع الأمثلة الدفاعية وتتطلب تركيب الدفعة الكبيرة بأكملها في ذاكرة GPU.تقدم هذه الورقة تقنية مخزئة للتدرج التي تعود فيها العدوى بين الخسارة الناقضة والتشمس، وإزالة التبعية لتشفير الترميز إلى الوراء على طول البعد الدفوع.نتيجة لذلك، يمكن حساب التدرجات لمجموعة فرعية واحدة من الدفعة في وقت واحد، مما يؤدي إلى استخدام الذاكرة المستمر تقريبا.

memory limited setup scaling deep contrastive limited setup الذاكرة محدودة الإعداد تحجيم مناقضات عميقة إعداد محدود صناعة حمض الفوسفور المزيد..

الأسئلة المقترحة

شرح تقنية التعرف على الصوت Voice Recognition

2107 - 0 - - تم طرحه بمساحة (الذكاء الاصناعي)

التعرف على الصوت التعرف على الكلام التعرف على الكلام التلقائي

سجل دخول لتتمكن من نشر تعليقات

التعليقات

جاري جلب التعليقات

سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها

جامعة تشرين

تفاصيل إضافية المزيد من الجامعات

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد

التعلم الفعال للحوار السياسي التكميلي عبر سياسة شبكة Q-Network العميقة وسياسة الذاكرة العرضية

Efficient Dialogue Complementary Policy Learning via Deep Q-network Policy and Episodic Memory Policy

اسأل ChatGPT حول البحث

اقرأ أيضاً

الأسئلة المقترحة