ترغب بنشر مسار تعليمي؟ اضغط هنا

اقتراح: التعلم بشكل تفاعلي لتلخيص الجداول الزمنية عن طريق التعلم التعزيز

A Proposal: Interactively Learning to Summarise Timelines by Reinforcement Learning

256   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف الملخصات الزمنية (TLS) إلى توليد قائمة موجزة من الأحداث الموضحة في مصادر مثل المقالات الإخبارية.ومع ذلك، فإن النظم الحالية لا توفر طريقة كافية للتكيف مع مجالات جديدة ولا تركز على جوانب الاهتمام لمستخدم معين.لذلك، نقترح طريقة للتعلم بشكل تفاعلي TLS abractive باستخدام التعزيز التعلم (RL).نحدد وظيفة المكافأة المركبة واستخدام RL Tune Tune Tune Tune Abstractive Multi-Document Summarisation (MDS)، والتي تتجنب الحاجة إلى التدريب باستخدام الملخصات المرجعية.سيتم تعلم أحد الوظائف الفرعية بشكل تفاعلي من ملاحظات المستخدم لضمان الاتساق بين مطالب المستخدمين والجدول الزمني الذي تم إنشاؤه.تساهم الوظائف الفرعية الأخرى في التماسك الموضعي والطلاقة اللغوية.نقول تجارب لتقييم ما إذا كان نهجنا قد يؤدي إلى توليد مواقع زمنية دقيقة ودقيقة مصممة لكل مستخدم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يعكس نظام الحوار الإقناعي قدرة الجهاز على جعل التحركات الإستراتيجية تتجاوز التواصل اللفظي، وبالتالي يميز نفسه عن حوارات موجهة نحو المهام أو فتح المجال ولديها قيمها الفريدة الخاصة بها. ومع ذلك، لا تزال مشاكل التكرار والتناسق لا تزال قائمة في توليد است جابة الحوار ويمكن أن تؤثر بشكل كبير على تجربة المستخدم وتعيق نتائج الإقناع. علاوة على ذلك، على الرغم من أن نهج التعزيز (RL) قد حقق نجاحا كبيرا في المهام الاستراتيجية مثل الألعاب، إلا أنها تتطلب محاكاة مستخدم متطورة لتوفير ملاحظات في الوقت الفعلي لنظام الحوار، مما يحد من تطبيق RL على حوارات الإقناع. لمعالجة هذه المشكلات نحو نظام حوار أفضل للإقناع، نقوم بتطبيق RL لتحسين خط الأساس طراز اللغة دون محاكاة المستخدمين، وتقطير المعلومات على مستوى الجملة حول التكرار، والتناسق، والأهمية المهمة من خلال المكافآت. علاوة على ذلك، لإنجاز مهمة الإقناع بشكل أفضل، يتعلم النموذج من مظاهرة بشرية لتقليد سلوك الإقناع البشري واختيار الاستجابات الأكثر إقناعا. تشير التجارب إلى أن نموذجنا يتفوق على نماذج الحوار السابقة من الحوار السابقة على كل من المقاييس التلقائية ونتائج التقييم البشري على مهمة إقناع التبرع، ويولد محادثات أكثر تنوعا ومتسقا ومقنعة وفقا لتعليقات المستخدمين. سنقوم بإجراء التعليمات البرمجية والنموذج المتاحة للجمهور.
تهدف استخراج العلاقات المنخفضة الموارد (LRE) إلى استخراج حقائق العلاقة من كورسا محدودة المسمى عندما تشريح الإنسان نادرة. تعمل الأعمال الموجودة إما استخدام مخطط التدريب الذاتي لتوليد ملصقات زائفة ستتسبب في مشكلة الانجراف التدريجي، أو نظام التعلم التلو ي الاستفادي الذي لا يتطلب التغيلات بشكل صريح. لتخفيف التحيز الاختيار بسبب عدم وجود حلقات ردود الفعل في نماذج التعلم الحالية، قمنا بتطوير طريقة تعليمية لتعزيز التعزيز التدرج لتشجيع بيانات الملصقات الزائفة لتقليد اتجاه نزول التدرج على البيانات المسمى و Bootstrap إمكانية التحسين من خلال التجربة والخطأ. نقترح أيضا إطارا يسمى Gradlre، الذي يتعامل مع سيناريوهات رئيسيين في استخراج علاقة الموارد المنخفضة. إلى جانب السيناريو حيث تكون البيانات غير المسبقة كافية، يتعامل Gradlre الموقف حيث لا تتوفر بيانات غير قابلة للتحقيق، من خلال استغلال طريقة تكبير سياقيا لتوليد البيانات. النتائج التجريبية على مجموعات بيانات عامة تثبت فعالية الخريجين في استخراج العلاقات المنخفضة للموارد عند مقارنة مع الأساس.
من الصعب تصميم استراتيجيات تداول مربحة وعملية، حيث أن حركات أسعار الأسهم هي مؤشر استوكاستي للغاية، وتتأثر السوق بشدة بالبيانات الفوضوية عبر مصادر مثل الأخبار والوسائط الاجتماعية. تقترب NLP الحالية تعالج إلى حد كبير تنبؤ الأسهم كصنف أو مشكلة في الانحد ار ولا يتم تحسينها لإجراء قرارات استثمار مربحة. علاوة على ذلك، فإنها لا تضع طراز الديناميات الزمنية لوحدات كميات كبيرة من النص المؤثر الذي يستجيب فيه السوق بسرعة. بناء على أوجه القصور هذه، نقترح نهج تعليمي عميق التعزيز يجعل القرارات تدرك الوقت على الأسهم التجارية أثناء تحسين الربح باستخدام البيانات النصية. تتفوقت طريقةنا على أحدث من بين الفن من حيث العائدات المعدلة بالمخاطر في عمليات محاكاة التداول على معيارين: تغريدات (الإنجليزية) والأخبار المالية (الصينية) المتعلقة بمهارسين رئيسيين وأربعة أسواق مخزون عالمية. من خلال تجارب ودراسات مكثفة، نبني القضية لطرأتنا كأداة للتداول الكمي.
غالبا ما تتطلب طرق تعلم التعلم العميق (RL) العديد من التجارب قبل التقارب، ولا يتم توفير إمكانية التفسير المباشر للسياسات المدربة.من أجل تحقيق التقارب السريع والتفسيرية للسياسة في RL، نقترح طريقة RL رواية للألعاب القائمة على النصوص مع إطار عمل رمزي مؤ خرا يسمى الشبكة العصبية المنطقية، والتي يمكن أن تتعلم القواعد الرمزية والتفسيرية في شبكتها المختلفة.الطريقة الأولى لاستخراج الحقائق المنطقية من الدرجة الأولى من مراقبة النص وشبكة معنى الكلمة الخارجية (Congernet)، ثم قم بتدريب سياسة في الشبكة مع مشغلين منطقي قابل التفسير مباشرة.تظهر النتائج التجريبية لدينا التدريب RL مع الأسلوب المقترح بشكل أسرع بكثير من الأساليب الخلية العصبية الأخرى في مؤشر TextWorld.
تستخدم وظائف الاستحواذ المشتركة للتعلم النشط إما أخذ عينات من عدم اليقين أو التنوع، تهدف إلى تحديد نقاط بيانات صعبة ومتنوعة من مجموعة البيانات غير المسبقة، على التوالي. في هذا العمل، استمتع بأفضل ما في العالمين، نقترح وظيفة الاستحواذ المفتوحة لاختار الأمثلة المتعاقبة تماما، أي نقاط بيانات مشابهة في مساحة ميزة النموذج وحتى الآن مخرجات النموذج احتمالية تنبؤية مختلفة. قارنا نهجنا، CAL (التعلم النشط الصنع)، مع مجموعة متنوعة من وظائف الاستحواذ في أربعة مهام فهم اللغة الطبيعية وسبع مجموعات البيانات. تظهر تجاربنا أن CUR يؤدي Cal بشكل أفضل أو متساو من أفضل خط الأساس الأدائي عبر جميع المهام، على كل من البيانات داخل المجال والخروج. نقوم أيضا بإجراء دراسة واسعة النمذجة لطرأتنا، ونحن نتحلل جميع مجموعات البيانات المكتسبة بنشاط والتي توضح أن كال يحصل على مفاضلة أفضل بين عدم اليقين والتنوع مقارنة باستراتيجيات أخرى.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا