ترغب بنشر مسار تعليمي؟ اضغط هنا

Rewardsofsum: استكشاف مكافآت التعزيز التعزيز للحصول على التوصيل

RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation

274   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حتى الآن، اعتمدت معظم نماذج التلخيص المذهلة على متغيرات من احتمال السجل السلبي (NLL) كهدف تدريبهم. في بعض الحالات، تمت إضافة التعلم التعزيز لتدريب النماذج بهدف أقرب إلى تدابير التقييم الخاصة بهم (مثل Rouge). ومع ذلك، فإن وظيفة المكافآت التي سيتم استخدامها في نهج التعلم التعزيز يمكن أن تلعب دورا رئيسيا للأداء ولا يزال غير مستكشفة جزئيا. لهذا السبب، في هذه الورقة، نقترح اثنين من وظائف المكافأة لمهمة التلخيص الجماعي: الوظيفة الأولى، المشار إليها باسم RWB-Hinge، يختار ديناميكيا العينات لتحديث التدرج. الوظيفة الثانية، الملقب بالمخاطر، يرفع مجموعة صغيرة من المرشحين القويين لإبلاغ المكافأة. في التجارب، نجري النهج المقترح من خلال ضبط النموذج المدرب مسبقا من NLL أكثر من تسع مجموعات بيانات ملخصة من الحجم والطبيعة المتنوعة. تظهر النتائج التجريبية تحسنا ثابتا على خطوط خطوط الأساسيات المحدودة السلبية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تهدف استخراج العلاقات المنخفضة الموارد (LRE) إلى استخراج حقائق العلاقة من كورسا محدودة المسمى عندما تشريح الإنسان نادرة. تعمل الأعمال الموجودة إما استخدام مخطط التدريب الذاتي لتوليد ملصقات زائفة ستتسبب في مشكلة الانجراف التدريجي، أو نظام التعلم التلو ي الاستفادي الذي لا يتطلب التغيلات بشكل صريح. لتخفيف التحيز الاختيار بسبب عدم وجود حلقات ردود الفعل في نماذج التعلم الحالية، قمنا بتطوير طريقة تعليمية لتعزيز التعزيز التدرج لتشجيع بيانات الملصقات الزائفة لتقليد اتجاه نزول التدرج على البيانات المسمى و Bootstrap إمكانية التحسين من خلال التجربة والخطأ. نقترح أيضا إطارا يسمى Gradlre، الذي يتعامل مع سيناريوهات رئيسيين في استخراج علاقة الموارد المنخفضة. إلى جانب السيناريو حيث تكون البيانات غير المسبقة كافية، يتعامل Gradlre الموقف حيث لا تتوفر بيانات غير قابلة للتحقيق، من خلال استغلال طريقة تكبير سياقيا لتوليد البيانات. النتائج التجريبية على مجموعات بيانات عامة تثبت فعالية الخريجين في استخراج العلاقات المنخفضة للموارد عند مقارنة مع الأساس.
تقوم معظم طرق التعلم في مجال التعزيز لسياسة الحوار، قم بتدريب تعلم وكيل مركزي يختار إجراء مشترك محدد مسبقا اسم النطاق ونوع النية واسم الفتحة. يعاني وكيل الحوار المركزي من متطلبات العديد من متطلبات تفاعل المستخدمين لعمل المستخدمين بسبب مساحة العمل الك بيرة. إضافة إلى ذلك، فإن تصميم الإجراءات المتسلسلة شاقة للمهندسين وربما كافح مع حالات الحافة. لحل هذه المشاكل، نقوم بنمط مشكلة تعلم سياسة الحوار مع إطار جديد متعدد الوكلاء، حيث يقود كل جزء من الإجراء من قبل وكيل مختلف. الإطار يقلل من تكاليف العمل لقوالب الإجراءات ويقلل من حجم مساحة العمل لكل وكيل. علاوة على ذلك، نقوم بتخفيف المشكلة غير الثابتة الناجمة عن ديناميات البيئة المتغيرة كتطور سياسات الوكلاء من خلال إدخال عملية تحسين مشتركة تجعل الوكلاء يمكنهم تبادل معلومات سياستهم. في الوقت نفسه، يتم دمج آلية إعادة تشغيل تجربة مخزنة مستقلة لتقليل الاعتماد بين تدرجات العينات لتحسين كفاءة التدريب. يتم إثبات فعالية الإطار المقترح في بيئة متعددة المجالات مع كل من تقييم محاكي المستخدم والتقييم البشري.
تستكشف هذه الورقة تأثير استخدام التعلم المتعدد التواجد لتلخيص الجماع في سياق كورسا التدريب الصغيرة.على وجه الخصوص، نحن ندمج أربع مهام مختلفة (تلخيص استخراجي، ونمذجة اللغة، والكشف عن المفهوم، والكشف عن الصياغة على حد سواء بشكل فردي ومزيج، بهدف تعزيز ا لمهمة المستهدفة المتمثلة في تلخيص الجماع عبر التعلم المتعدد.نظرا لأنه بالنسبة للعديد من مجموعات المهام، فإن نموذج مدرب في إعداد متعدد الأيتاكف يتفوق على نموذج مدرب فقط في تلخيص الجماع، مع عدم تقديم بيانات تلخيص إضافية.بالإضافة إلى ذلك، نقوم بعمل بحث شامل والعثور على أن بعض المهام (E.G. الكشف عن الصياغة) تستفيد باستمرار تلخيص الجماعي، ليس فقط عند الجمع مع المهام الأخرى ولكن أيضا عند استخدام بهيئات مختلفة وتدريب كورسا.
وجدت خوارزميات التدرج السياسي اعتماد واسع في NLP، لكنها أصبحت مؤخرا عرضة للنقد، مما يشك في ملاءمتها ل NMT.تشوشين وآخرون.(2020) حدد نقاط ضعف متعددة والشك في تحديد نجاحهم من خلال شكل توزيعات الإخراج بدلا من المكافأة.في هذه الورقة، نلتأكيد هذه المطالبات ودراسةها تحت مجموعة أوسع من التكوينات.تكشف تجاربنا على التكيف في المجال والمجال عبر المجال أهمية الاستكشاف والمكافآت، وتوفير الأدلة المضادة التجريبية لهذه المطالبات.
من الصعب تصميم استراتيجيات تداول مربحة وعملية، حيث أن حركات أسعار الأسهم هي مؤشر استوكاستي للغاية، وتتأثر السوق بشدة بالبيانات الفوضوية عبر مصادر مثل الأخبار والوسائط الاجتماعية. تقترب NLP الحالية تعالج إلى حد كبير تنبؤ الأسهم كصنف أو مشكلة في الانحد ار ولا يتم تحسينها لإجراء قرارات استثمار مربحة. علاوة على ذلك، فإنها لا تضع طراز الديناميات الزمنية لوحدات كميات كبيرة من النص المؤثر الذي يستجيب فيه السوق بسرعة. بناء على أوجه القصور هذه، نقترح نهج تعليمي عميق التعزيز يجعل القرارات تدرك الوقت على الأسهم التجارية أثناء تحسين الربح باستخدام البيانات النصية. تتفوقت طريقةنا على أحدث من بين الفن من حيث العائدات المعدلة بالمخاطر في عمليات محاكاة التداول على معيارين: تغريدات (الإنجليزية) والأخبار المالية (الصينية) المتعلقة بمهارسين رئيسيين وأربعة أسواق مخزون عالمية. من خلال تجارب ودراسات مكثفة، نبني القضية لطرأتنا كأداة للتداول الكمي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا