البناء التلقائي لقواعد المعرفة ذات الصلة (KBS) من النص، وتوليد نص مغزى من KBS هما أهداف طويلة الأمد في تعلم الآلات. في هذه الورقة، نقدم Regen، وهي جيل ثنائي الاتجاه من النص والرأس الرسم البياني الاستفادة من التعزيز لتعزيز الأداء. يتيح لنا الخطية الرسم البياني إعادة تأكيد المهام كسلسلة لتسليم توليد التسلسل بغض النظر عن الاتجاه الإداري، والذي يسمح بدوره لاستخدام التعزيز التعزيز لتدريب التسلسل حيث يعمل النموذج نفسه كناقد خاص به تدريب التسلسل (SCST). نقدم إجراء تحقيق واسع النطاق الذي يوضح أن استخدام RL عبر فوائد SCST Grape و جيل النص على Datasets Webnlg + 2020 و Tekgen. يوفر نظامنا نتائج حديثة على Webnlg + 2020 من خلال تحسين النتائج المنشورة بشكل كبير من تحدي Webnlg 2020+ لكل من مهام جيل الرسائل النصية إلى الرسم البيانية والرسوم البيانية. مزيد من التفاصيل في https://github.com/ibm/regen.
Automatic construction of relevant Knowledge Bases (KBs) from text, and generation of semantically meaningful text from KBs are both long-standing goals in Machine Learning. In this paper, we present ReGen, a bidirectional generation of text and graph leveraging Reinforcement Learning to improve performance. Graph linearization enables us to re-frame both tasks as a sequence to sequence generation problem regardless of the generative direction, which in turn allows the use of Reinforcement Learning for sequence training where the model itself is employed as its own critic leading to Self-Critical Sequence Training (SCST). We present an extensive investigation demonstrating that the use of RL via SCST benefits graph and text generation on WebNLG+ 2020 and TekGen datasets. Our system provides state-of-the-art results on WebNLG+ 2020 by significantly improving upon published results from the WebNLG 2020+ Challenge for both text-to-graph and graph-to-text generation tasks. More details at https://github.com/IBM/regen.
المراجع المستخدمة
https://aclanthology.org/
تحظى طرازات اللغة واسعة النطاق (LMS) في كورسورا هائلة من النص، مثل GPT-2، هي مولدات نصية مفتوحة قوية. ومع ذلك، نظرا لأن الفحص المنهجي الخاص بنا يكشف، فمن لا يزال يمثل تحديا لهذه النماذج لتوليد ممرات طويلة طويلة متماسكة من النص (على سبيل المثال، 1000
تركز العمل الحالي على التحقيق في نماذج اللغة المحددة مسبقا (LMS) في الغالب على المهام الأساسية على مستوى الجملة.في هذه الورقة، نقدم إجراء خطاب على مستوى المستندات لتقييم قدرة LMS المسبقة على التقاط العلاقات على مستوى المستندات.نقوم بتجربة 7 LMS محددة
من الصعب تصميم استراتيجيات تداول مربحة وعملية، حيث أن حركات أسعار الأسهم هي مؤشر استوكاستي للغاية، وتتأثر السوق بشدة بالبيانات الفوضوية عبر مصادر مثل الأخبار والوسائط الاجتماعية. تقترب NLP الحالية تعالج إلى حد كبير تنبؤ الأسهم كصنف أو مشكلة في الانحد
الاتساق الملخص للنموذج --- أي ثابت سلوكه بموجب استطلاعات المعنى المحفوظة في مدخلاته --- هو ممتلكات مرغوبة للغاية في معالجة اللغة الطبيعية.في هذه الورقة ندرس السؤال: نماذج اللغة المحددة مسبقا (PLMS) بما يتفق فيما يتعلق بالمعرفة الواقعية؟تحقيقا لهذه ال
للحصول على تضمين الجملة ذات الجودة العالية من نماذج اللغة المحددة مسبقا (PLMS)، يجب أن تكون تؤدي إما بزيادة أهداف محالمنة إضافية أو Finetuned على مجموعة كبيرة من أزواج النص المسمى.في حين أن النهج الأخير يتفوق عادة على السابق، إلا أنه يتطلب جهد إنساني