أوراق بحثية, رسائل ماجستير ودكتوراه حول reinforcement learning

إطار تعلم التعزيز متعدد الوكلات التعاونية لتحليل إجراء الحوار

138 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تقوم معظم طرق التعلم في مجال التعزيز لسياسة الحوار، قم بتدريب تعلم وكيل مركزي يختار إجراء مشترك محدد مسبقا اسم النطاق ونوع النية واسم الفتحة. يعاني وكيل الحوار المركزي من متطلبات العديد من متطلبات تفاعل المستخدمين لعمل المستخدمين بسبب مساحة العمل الك بيرة. إضافة إلى ذلك، فإن تصميم الإجراءات المتسلسلة شاقة للمهندسين وربما كافح مع حالات الحافة. لحل هذه المشاكل، نقوم بنمط مشكلة تعلم سياسة الحوار مع إطار جديد متعدد الوكلاء، حيث يقود كل جزء من الإجراء من قبل وكيل مختلف. الإطار يقلل من تكاليف العمل لقوالب الإجراءات ويقلل من حجم مساحة العمل لكل وكيل. علاوة على ذلك، نقوم بتخفيف المشكلة غير الثابتة الناجمة عن ديناميات البيئة المتغيرة كتطور سياسات الوكلاء من خلال إدخال عملية تحسين مشتركة تجعل الوكلاء يمكنهم تبادل معلومات سياستهم. في الوقت نفسه، يتم دمج آلية إعادة تشغيل تجربة مخزنة مستقلة لتقليل الاعتماد بين تدرجات العينات لتحسين كفاءة التدريب. يتم إثبات فعالية الإطار المقترح في بيئة متعددة المجالات مع كل من تقييم محاكي المستخدم والتقييم البشري.

collaborative multi-agent reinforcement dialog action decomposition multi-agent reinforcement learning التعاون التعاوني متعدد الوكيل التعزيز حوار إجراء التحلل التعلم التعزيز متعدد الوكيل صناعة حمض الفوسفور المزيد..

التعلم التعزيز الرمز العصبي الرمزي مع منطق من الدرجة الأولى

236 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

غالبا ما تتطلب طرق تعلم التعلم العميق (RL) العديد من التجارب قبل التقارب، ولا يتم توفير إمكانية التفسير المباشر للسياسات المدربة.من أجل تحقيق التقارب السريع والتفسيرية للسياسة في RL، نقترح طريقة RL رواية للألعاب القائمة على النصوص مع إطار عمل رمزي مؤ خرا يسمى الشبكة العصبية المنطقية، والتي يمكن أن تتعلم القواعد الرمزية والتفسيرية في شبكتها المختلفة.الطريقة الأولى لاستخراج الحقائق المنطقية من الدرجة الأولى من مراقبة النص وشبكة معنى الكلمة الخارجية (Congernet)، ثم قم بتدريب سياسة في الشبكة مع مشغلين منطقي قابل التفسير مباشرة.تظهر النتائج التجريبية لدينا التدريب RL مع الأسلوب المقترح بشكل أسرع بكثير من الأساليب الخلية العصبية الأخرى في مؤشر TextWorld.

عملاء التسوق عبر الإنترنت neuro-symbolic reinforcement learning تعلم التعزيز العصبي الرمزي صناعة حمض الفوسفور

التدرج تقليد التعزيز التعلم لاستخراج علاقة الموارد المنخفضة

165 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

تهدف استخراج العلاقات المنخفضة الموارد (LRE) إلى استخراج حقائق العلاقة من كورسا محدودة المسمى عندما تشريح الإنسان نادرة. تعمل الأعمال الموجودة إما استخدام مخطط التدريب الذاتي لتوليد ملصقات زائفة ستتسبب في مشكلة الانجراف التدريجي، أو نظام التعلم التلو ي الاستفادي الذي لا يتطلب التغيلات بشكل صريح. لتخفيف التحيز الاختيار بسبب عدم وجود حلقات ردود الفعل في نماذج التعلم الحالية، قمنا بتطوير طريقة تعليمية لتعزيز التعزيز التدرج لتشجيع بيانات الملصقات الزائفة لتقليد اتجاه نزول التدرج على البيانات المسمى و Bootstrap إمكانية التحسين من خلال التجربة والخطأ. نقترح أيضا إطارا يسمى Gradlre، الذي يتعامل مع سيناريوهات رئيسيين في استخراج علاقة الموارد المنخفضة. إلى جانب السيناريو حيث تكون البيانات غير المسبقة كافية، يتعامل Gradlre الموقف حيث لا تتوفر بيانات غير قابلة للتحقيق، من خلال استغلال طريقة تكبير سياقيا لتوليد البيانات. النتائج التجريبية على مجموعات بيانات عامة تثبت فعالية الخريجين في استخراج العلاقات المنخفضة للموارد عند مقارنة مع الأساس.

imitation reinforcement learning gradient imitation reinforcement resource relation extraction التعزيز التقليد التعلم التعزيز التدريجي استخراج علاقة الموارد صناعة حمض الفوسفور المزيد..

التعميم في الألعاب القائمة على النص عبر التعلم التسلسل الهرمي

240 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يوفر التعلم العميق التعلم نهجا واعدا للألعاب القائمة على النصوص في دراسة التواصل الطبيعي باللغة الطبيعية بين البشر والوكلاء الاصطناعي.ومع ذلك، لا يزال التعميم يمثل تحديا كبيرا حيث يعتمد الوكلاء بشكل خطير على تعقيد ومجموعة متنوعة من المهام التدريبية.ف ي هذه الورقة، نتعلم هذه المشكلة عن طريق إدخال إطار هرمي مبني على وكيل RL المعلق الرسم البياني المعلق.في المستوى العالي، يتم تنفيذ سياسة META لتحلل اللعبة بأكملها في مجموعة من المهام الفرعية المحددة بواسطة أهداف نصية، وحدد أحدها بناء على KG.ثم يتم تنفيذ سياسة فرعية في المستوى المنخفض لإجراء تعلم التعزيز المكيف للأهداف.نقوم بإجراء تجارب على الألعاب ذات مستويات صعوبة مختلفة وإظهار أن الطريقة المقترحة تتمتع بالتعميمات المواتية.

hierarchical reinforcement learning deep reinforcement learning التعزيز التسلسل الهرمي التعلم التعزيز العميق التعلم صناعة حمض الفوسفور

التعزيز غير متصل التعلم من ردود فعل إنسانية في مهام تسلسل العالم الحقيقي

248 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

يمكن جمع كميات كبيرة من سجلات التفاعل من أنظمة NLP التي يتم نشرها في العالم الحقيقي.كيف يمكن الاستفادة من هذه الثروة من المعلومات؟يعد استخدام سجلات التفاعل هذه في إعداد تعليم التعزيز (RL) غير متصل نهجا واعدا.ومع ذلك، نظرا لطبيعة مهام NLP وقيود أنظمة الإنتاج، تنشأ سلسلة من التحديات.نقدم نظرة عامة موجزة عن هذه التحديات ومناقشة الحلول الممكنة.

human feedback feedback in real-world offline reinforcement learning ردود الفعل الإنسانية ردود الفعل في العالم الحقيقي التعزيز التعزيز غير متصل صناعة حمض الفوسفور المزيد..

Rewardsofsum: استكشاف مكافآت التعزيز التعزيز للحصول على التوصيل

200 - جمعية اللغويات الحاسوبية ACL 2021 مقالة

حتى الآن، اعتمدت معظم نماذج التلخيص المذهلة على متغيرات من احتمال السجل السلبي (NLL) كهدف تدريبهم. في بعض الحالات، تمت إضافة التعلم التعزيز لتدريب النماذج بهدف أقرب إلى تدابير التقييم الخاصة بهم (مثل Rouge). ومع ذلك، فإن وظيفة المكافآت التي سيتم استخ دامها في نهج التعلم التعزيز يمكن أن تلعب دورا رئيسيا للأداء ولا يزال غير مستكشفة جزئيا. لهذا السبب، في هذه الورقة، نقترح اثنين من وظائف المكافأة لمهمة التلخيص الجماعي: الوظيفة الأولى، المشار إليها باسم RWB-Hinge، يختار ديناميكيا العينات لتحديث التدرج. الوظيفة الثانية، الملقب بالمخاطر، يرفع مجموعة صغيرة من المرشحين القويين لإبلاغ المكافأة. في التجارب، نجري النهج المقترح من خلال ضبط النموذج المدرب مسبقا من NLL أكثر من تسع مجموعات بيانات ملخصة من الحجم والطبيعة المتنوعة. تظهر النتائج التجريبية تحسنا ثابتا على خطوط خطوط الأساسيات المحدودة السلبية.

exploring reinforcement learning exploring reinforcement reinforcement learning rewards استكشاف التعزيز التعلم استكشاف التعزيز مكافآت التعزيز التعزيز صناعة حمض الفوسفور المزيد..

تطوير نظام أمثليّ للتداول المالي باستخدام تقنيات الذكاء الصُنعي

1628 - جامعة البعث 2018 ورقة بحثية

تم في هذا البحث دمج تقنيتين من تقنيات الذكاء الصنعي، و هما خوارزمية أمثلية مستعمرة النمل (ACO) و الخوارزمية الجينية (GA) لتحقيق أمثلية نظام التعلم المُعزّز العودي لتداول الأسهم. و يعتمد نظام التداول المقترح على خوارزمية أمثلية مستعمرة النمل و الخوار زمية الجينية لاختيار مجموعة مثالية من المؤشرات الأساسية و الفنية لتحسين أداء التداول.

GENETIC ALGORITHM الخوارزمية الجينية الذكاء الصنعي التعلم المُعزّز العودي خوارزمية أمثلية مستعمرة النمل Artificial Intelligent Recurrent reinforcement learning Ants colony optimization algorithm المزيد..

تحقيق أمثليّة الأنظمة الخطية بحركيات غير معلومة باستخدام تقنيات بحوث العمليات الذكية

1080 - جامعة البعث 2016 ورقة بحثية

نُقدم في هذه المقالة طريقة، لإيجاد متحكم تكيّفيّ أمثل بالشكل المباشر للأنظمة الخطية مستمرة الزمن، بدون معرفة المصفوفات الحركية للنظام. و تُوظف الطريقة المقترحة إحدى تقنيات بحوث العمميات الذكية، و هي تقنية البرمجة الديناميكية التكيفية لحل معادلة ريك اتي الجبرية بشكل تكراري، باستخدام معلومات مباشرة من الحالة و الدخل، و بدون الحاجة إلى معرفة مُسبقة لحركيات النظام. و يُمكن بالإضافة لذلك إجراء كل التكرارات باستخدام معلومات الحالة و الدخل ذاتها لمرات عديدة و على بعض الفترات الزمنية الثابتة. كما تم في هذه المقالة تطوير خوارزمية عملية مباشرة، و تم تطبيقها لتصميم متحكم أمثل بمحرك ديزل نفاث مع إعادة تدوير غاز العادم.

التحكم الأمثل Linear systems بحوث العمليات الذكية البرمجة الديناميكية التكيفية التعلم المعزّز الأنظمة الخطية Intelligent Operations Research Adaptive dynamic programming Reinforcement learning Optimal control المزيد..

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد