مستوحاة من تعلم المناهج الدراسية، نقترح إطار جيل التوليد على التوالي (I.E.، إلى نص إلى نص) حيث نقسم مشكلة جيل تقرير الأشعة في خطوتين.عكس ذلك لتوليد تقرير الأشعة الكاملة من الصورة في وقت واحد، يولد النموذج مفاهيم عالمية من الصورة في الخطوة الأولى ثم إصلاحها إلى نصوص أدق ومتماسكة باستخدام الهندسة المعمارية القائمة على المحولات.نحن نتبع نموذج التسلسل المستند إلى التسلسل المحول في كل خطوة.نحن نحسن على أحدث مجموعة من مجموعات البيانات القياسية.
Inspired by Curriculum Learning, we propose a consecutive (i.e., image-to-text-to-text) generation framework where we divide the problem of radiology report generation into two steps. Contrary to generating the full radiology report from the image at once, the model generates global concepts from the image in the first step and then reforms them into finer and coherent texts using transformer-based architecture. We follow the transformer-based sequence-to-sequence paradigm at each step. We improve upon the state-of-the-art on two benchmark datasets.
المراجع المستخدمة
https://aclanthology.org/