تهدف الملخصات الزمنية (TLS) إلى توليد قائمة موجزة من الأحداث الموضحة في مصادر مثل المقالات الإخبارية.ومع ذلك، فإن النظم الحالية لا توفر طريقة كافية للتكيف مع مجالات جديدة ولا تركز على جوانب الاهتمام لمستخدم معين.لذلك، نقترح طريقة للتعلم بشكل تفاعلي TLS abractive باستخدام التعزيز التعلم (RL).نحدد وظيفة المكافأة المركبة واستخدام RL Tune Tune Tune Tune Abstractive Multi-Document Summarisation (MDS)، والتي تتجنب الحاجة إلى التدريب باستخدام الملخصات المرجعية.سيتم تعلم أحد الوظائف الفرعية بشكل تفاعلي من ملاحظات المستخدم لضمان الاتساق بين مطالب المستخدمين والجدول الزمني الذي تم إنشاؤه.تساهم الوظائف الفرعية الأخرى في التماسك الموضعي والطلاقة اللغوية.نقول تجارب لتقييم ما إذا كان نهجنا قد يؤدي إلى توليد مواقع زمنية دقيقة ودقيقة مصممة لكل مستخدم.
Timeline Summarisation (TLS) aims to generate a concise, time-ordered list of events described in sources such as news articles. However, current systems do not provide an adequate way to adapt to new domains nor to focus on the aspects of interest to a particular user. Therefore, we propose a method for interactively learning abstractive TLS using Reinforcement Learning (RL). We define a compound reward function and use RL to fine-tune an abstractive Multi-document Summarisation (MDS) model, which avoids the need to train using reference summaries. One of the sub-reward functions will be learned interactively from user feedback to ensure the consistency between users' demands and the generated timeline. The other sub-reward functions contribute to topical coherence and linguistic fluency. We plan experiments to evaluate whether our approach could generate accurate and precise timelines tailored for each user.
المراجع المستخدمة
https://aclanthology.org/
يعكس نظام الحوار الإقناعي قدرة الجهاز على جعل التحركات الإستراتيجية تتجاوز التواصل اللفظي، وبالتالي يميز نفسه عن حوارات موجهة نحو المهام أو فتح المجال ولديها قيمها الفريدة الخاصة بها. ومع ذلك، لا تزال مشاكل التكرار والتناسق لا تزال قائمة في توليد است
تهدف استخراج العلاقات المنخفضة الموارد (LRE) إلى استخراج حقائق العلاقة من كورسا محدودة المسمى عندما تشريح الإنسان نادرة. تعمل الأعمال الموجودة إما استخدام مخطط التدريب الذاتي لتوليد ملصقات زائفة ستتسبب في مشكلة الانجراف التدريجي، أو نظام التعلم التلو
من الصعب تصميم استراتيجيات تداول مربحة وعملية، حيث أن حركات أسعار الأسهم هي مؤشر استوكاستي للغاية، وتتأثر السوق بشدة بالبيانات الفوضوية عبر مصادر مثل الأخبار والوسائط الاجتماعية. تقترب NLP الحالية تعالج إلى حد كبير تنبؤ الأسهم كصنف أو مشكلة في الانحد
غالبا ما تتطلب طرق تعلم التعلم العميق (RL) العديد من التجارب قبل التقارب، ولا يتم توفير إمكانية التفسير المباشر للسياسات المدربة.من أجل تحقيق التقارب السريع والتفسيرية للسياسة في RL، نقترح طريقة RL رواية للألعاب القائمة على النصوص مع إطار عمل رمزي مؤ
تستخدم وظائف الاستحواذ المشتركة للتعلم النشط إما أخذ عينات من عدم اليقين أو التنوع، تهدف إلى تحديد نقاط بيانات صعبة ومتنوعة من مجموعة البيانات غير المسبقة، على التوالي. في هذا العمل، استمتع بأفضل ما في العالمين، نقترح وظيفة الاستحواذ المفتوحة لاختار