تحديد مصطلحات المصطلحات هي الخطوة الأولى في التواصل العلمي. يمكن تطوير نماذج توليد النص العصبي لتوليد التعريف التحايل على منحك كثافة العمل، مما يؤدي إلى مزيد من تسريع الاكتشاف العلمي. لسوء الحظ، فإن الافتقار إلى مجموعة بيانات تعريف المصطلحات واسعة النطاق تعوق العملية نحو توليد التعريف. في هذه الورقة، نقدم مجموعة بيانات تعريف مصطلحات واسعة النطاق تغطي أزواج تعريف تعريف المصطلحات 2،010،648، وتمتد 227 من الفضائح الطبية الحيوية. تشكل المصطلحات المصطلحات في كل فرع من الفعالة رسم بياني Acyclic موجه مؤقتا، حيث فتح طرق جديدة لتطوير نماذج توليد الرسومات في الرسم البياني. بعد ذلك اقترحنا نموذج جيل تعريف الرسم البياني للرسوم البياني الرواية التي تدمج المحولات مع شبكة عصبية الرسم البياني. ينفأ النموذج لدينا على نماذج توليد النص الموجودة من خلال استغلال بنية الرسم البياني للمصطلحات. أظهرنا أيضا كيف يمكن استخدام الرسوم البيانية لتقييم نماذج اللغة المحددة مسبقا، ومقارنة أساليب تعلم التمثيل الرسم البياني والتنبؤ بالحكومة. نحن نتصور الرسوم البيانية لتكون مصدرا فريدا لتوليد التعريف والعديد من مهام NLP الأخرى في الطب الحيوي.
Precisely defining the terminology is the first step in scientific communication. Developing neural text generation models for definition generation can circumvent the labor-intensity curation, further accelerating scientific discovery. Unfortunately, the lack of large-scale terminology definition dataset hinders the process toward definition generation. In this paper, we present a large-scale terminology definition dataset Graphine covering 2,010,648 terminology definition pairs, spanning 227 biomedical subdisciplines. Terminologies in each subdiscipline further form a directed acyclic graph, opening up new avenues for developing graph-aware text generation models. We then proposed a novel graph-aware definition generation model Graphex that integrates transformer with graph neural network. Our model outperforms existing text generation models by exploiting the graph structure of terminologies. We further demonstrated how Graphine can be used to evaluate pretrained language models, compare graph representation learning methods and predict sentence granularity. We envision Graphine to be a unique resource for definition generation and many other NLP tasks in biomedicine.
References used
https://aclanthology.org/
The analytical description of charts is an exciting and important research area with many applications in academia and industry. Yet, this challenging task has received limited attention from the computational linguistics research community. This pap
Generating texts in scientific papers requires not only capturing the content contained within the given input but also frequently acquiring the external information called context. We push forward the scientific text generation by proposing a new ta
Recent development in NLP shows a strong trend towards refining pre-trained models with a domain-specific dataset. This is especially the case for response generation where emotion plays an important role. However, existing empathetic datasets remain
This paper presents the first study on using large-scale pre-trained language models for automated generation of an event-level temporal graph for a document. Despite the huge success of neural pre-training methods in NLP tasks, its potential for tem
A mind-map is a diagram that represents the central concept and key ideas in a hierarchical way. Converting plain text into a mind-map will reveal its key semantic structure and be easier to understand. Given a document, the existing automatic mind-m