ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم التعزيز الرمز العصبي الرمزي مع منطق من الدرجة الأولى

Neuro-Symbolic Reinforcement Learning with First-Order Logic

349   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

غالبا ما تتطلب طرق تعلم التعلم العميق (RL) العديد من التجارب قبل التقارب، ولا يتم توفير إمكانية التفسير المباشر للسياسات المدربة.من أجل تحقيق التقارب السريع والتفسيرية للسياسة في RL، نقترح طريقة RL رواية للألعاب القائمة على النصوص مع إطار عمل رمزي مؤخرا يسمى الشبكة العصبية المنطقية، والتي يمكن أن تتعلم القواعد الرمزية والتفسيرية في شبكتها المختلفة.الطريقة الأولى لاستخراج الحقائق المنطقية من الدرجة الأولى من مراقبة النص وشبكة معنى الكلمة الخارجية (Congernet)، ثم قم بتدريب سياسة في الشبكة مع مشغلين منطقي قابل التفسير مباشرة.تظهر النتائج التجريبية لدينا التدريب RL مع الأسلوب المقترح بشكل أسرع بكثير من الأساليب الخلية العصبية الأخرى في مؤشر TextWorld.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم استخدام خوارزميات التعلم التلوي من الدرجة الأولى على نطاق واسع في الممارسة لتعلم معلمات النماذج الأولية التي يمكن تكييفها بسرعة مع مهام جديدة بسبب كفاءتها وفعاليتها. ومع ذلك، تجد الدراسات الحالية أن Meta-Learner يمكن أن يتألف إلى بعض التكيف المحدد عندما يكون لدينا مهام غير متجانسة، مما يؤدي إلى أدائه المتدهورة بشكل كبير. في تطبيقات معالجة اللغة الطبيعية (NLP)، غالبا ما تكون مجموعات البيانات متنوعة وكل مهمة لها خصائصها الفريدة. لذلك، لمعالجة القضية الجاكهة عند تطبيق تطبيق التعلم من الدرجة الأولى من الدرجة الأولى إلى تطبيقات NLP، نقترح تخفيض تباين مقدر التدرج المستخدم في تكيف المهام. تحقيقا لهذه الغاية، نقوم بتطوير خوارزمية للتعلم من الدرجة الأولى من الدرجة الأولى من الدرجة الأولى. جوهر خوارزميةنا هو إدخال مصطلح تقليل متباين رواية لتقدير التدرج عند إجراء تكيف المهمة. تجارب على تطبيقين NLP: يظهر تتبع عدد قليل من التصنيف النصي وتتبع حالة الحوار متعدد المجالات الأداء الفائق لطرأنا المقترحة.
في الآونة الأخيرة، حققت نماذج اللغة (LMS) أداء كبيرا في العديد من مهام NLU، التي حفزت اهتماما واسع النطاق للتطبيقات المحتملة في المجال العلمي والاجتماعي.ومع ذلك، واجهت LMS الكثير من الانتقاد لما إذا كانت قادرة حقا على التفكير في NLU.في هذا العمل، نقت رح طريقة تشخيصية للمنطق المنطقي من الدرجة الأولى (FOL) مع معيار جديد مقترح، Logicnli.Logicnli عبارة عن مجموعة بيانات ذات طراز NLI الذي تم تنشيطه بشكل فعال من مستهدف فولت المستهدف من استنتاج المنطقي ويمكن استخدامه لتشخيص LMS من أربعة وجهات نظر: الدقة والمتانة والتعميم والتفسيرية.كشفت تجارب على بيرت وروبرتا و XLNET، عن نقاط الضعف في هؤلاء LMS بشأن التفكير فول، مما يحفز الاستكشاف المستقبلي لتعزيز قدرة المنطق.
نقدم نظاما للتعلم أنماط التعلم المعممة أو النمطية للأحداث - أو المخططات "--- من قصص اللغة الطبيعية، وتطبيقها على إجراء تنبؤات حول القصص الأخرى.يتم تمثيل مخططاتنا منطق Episodic، وهو شكل منطقي يعكسان عن كثب اللغة الطبيعية.من خلال البدء بمجموعة "مجموعة من البروتوشما" --- مخططات أن الطفل الذي يبلغ من العمر عامين، من المحتمل أن يعرفه الطفل --- يمكننا الحصول على معرفة عالمية مفيدة وعصرية مع أمثلة قليلة جدا - - في كثير من الأحيانواحد او اثنين.يمكن دمج المخططات المستفادة في مخططات أكثر تعقيدا ومركبة، وتستخدم لإجراء تنبؤات في قصص أخرى حيث تتوفر معلومات جزئية فقط.
من الصعب تصميم استراتيجيات تداول مربحة وعملية، حيث أن حركات أسعار الأسهم هي مؤشر استوكاستي للغاية، وتتأثر السوق بشدة بالبيانات الفوضوية عبر مصادر مثل الأخبار والوسائط الاجتماعية. تقترب NLP الحالية تعالج إلى حد كبير تنبؤ الأسهم كصنف أو مشكلة في الانحد ار ولا يتم تحسينها لإجراء قرارات استثمار مربحة. علاوة على ذلك، فإنها لا تضع طراز الديناميات الزمنية لوحدات كميات كبيرة من النص المؤثر الذي يستجيب فيه السوق بسرعة. بناء على أوجه القصور هذه، نقترح نهج تعليمي عميق التعزيز يجعل القرارات تدرك الوقت على الأسهم التجارية أثناء تحسين الربح باستخدام البيانات النصية. تتفوقت طريقةنا على أحدث من بين الفن من حيث العائدات المعدلة بالمخاطر في عمليات محاكاة التداول على معيارين: تغريدات (الإنجليزية) والأخبار المالية (الصينية) المتعلقة بمهارسين رئيسيين وأربعة أسواق مخزون عالمية. من خلال تجارب ودراسات مكثفة، نبني القضية لطرأتنا كأداة للتداول الكمي.
تهدف الملخصات الزمنية (TLS) إلى توليد قائمة موجزة من الأحداث الموضحة في مصادر مثل المقالات الإخبارية.ومع ذلك، فإن النظم الحالية لا توفر طريقة كافية للتكيف مع مجالات جديدة ولا تركز على جوانب الاهتمام لمستخدم معين.لذلك، نقترح طريقة للتعلم بشكل تفاعلي T LS abractive باستخدام التعزيز التعلم (RL).نحدد وظيفة المكافأة المركبة واستخدام RL Tune Tune Tune Tune Abstractive Multi-Document Summarisation (MDS)، والتي تتجنب الحاجة إلى التدريب باستخدام الملخصات المرجعية.سيتم تعلم أحد الوظائف الفرعية بشكل تفاعلي من ملاحظات المستخدم لضمان الاتساق بين مطالب المستخدمين والجدول الزمني الذي تم إنشاؤه.تساهم الوظائف الفرعية الأخرى في التماسك الموضعي والطلاقة اللغوية.نقول تجارب لتقييم ما إذا كان نهجنا قد يؤدي إلى توليد مواقع زمنية دقيقة ودقيقة مصممة لكل مستخدم.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا