يعرض نماذج Resunding Runing Running لتلخيص محادثة محادثة الطبيب تلقائيا العديد من التحديات: بيانات تدريب محدودة، ونقل مجال كبير، والنصوص الطويلة والصعارية، والتقلبات الموجزة عالية الهدف. في هذه الورقة، نستكشف جدوى استخدام نماذج المحولات مسبقا لتلخيص محادثات الطبيب المريض تلقائيا مباشرة من النصوص. نظهر أنه يمكن إنشاء ملخصات بطلاقة وكافية بيانات تدريبية محدودة من قبل BARTING BART على مجموعة بيانات شيدة خصيصا. تتجاوز النماذج الناتجة بشكل كبير أداء Annotator البشري المتوسط ونوعية العمل المنشور السابق للمهمة. نقيم طرق متعددة للتعامل مع المحادثات الطويلة، ومقارنتها إلى خط الأساس الواضح لاقتطاع المحادثة لتناسب حد الطول المحدد مسبقا. نقدم نهجا متعدد المراحل يتناول المهمة من خلال تعلم اثنين من النماذج الدقيقة: واحد لتلخيص قطع المحادثة في ملخصات جزئية، تليها واحدة لإعادة كتابة مجموعة الملخصات الجزئية إلى ملخص كامل. باستخدام مجموعة بيانات ذات ضبط دقيقة تم اختيارها بعناية، تظهر هذه الطريقة فعالة في التعامل مع محادثات أطول، وتحسين جودة الملخصات التي تم إنشاؤها. نقوم بإجراء كل من التقييم التلقائي (من خلال Rouge ومقاييس مقرها المفهوم يركز على النتائج الطبية) وتقييم بشري (من خلال أمثلة نوعية من الأدبيات، تقييم الهلوسة، التعميم، الطلاقة، والنوعية العامة للملخصات التي تم إنشاؤها).
Fine-tuning pretrained models for automatically summarizing doctor-patient conversation transcripts presents many challenges: limited training data, significant domain shift, long and noisy transcripts, and high target summary variability. In this paper, we explore the feasibility of using pretrained transformer models for automatically summarizing doctor-patient conversations directly from transcripts. We show that fluent and adequate summaries can be generated with limited training data by fine-tuning BART on a specially constructed dataset. The resulting models greatly surpass the performance of an average human annotator and the quality of previous published work for the task. We evaluate multiple methods for handling long conversations, comparing them to the obvious baseline of truncating the conversation to fit the pretrained model length limit. We introduce a multistage approach that tackles the task by learning two fine-tuned models: one for summarizing conversation chunks into partial summaries, followed by one for rewriting the collection of partial summaries into a complete summary. Using a carefully chosen fine-tuning dataset, this method is shown to be effective at handling longer conversations, improving the quality of generated summaries. We conduct both an automatic evaluation (through ROUGE and two concept-based metrics focusing on medical findings) and a human evaluation (through qualitative examples from literature, assessing hallucination, generalization, fluency, and general quality of the generated summaries).
References used
https://aclanthology.org/
We focus on dialog models in the context of clinical studies where the goal is to help gather, in addition to the close information collected based on a questionnaire, serendipitous information that is medically relevant. To promote user engagement a
Large-scale language models such as GPT-3 are excellent few-shot learners, allowing them to be controlled via natural text prompts. Recent studies report that prompt-based direct classification eliminates the need for fine-tuning but lacks data and i
Patient safety is a modern but not new concept in global health care systems where reports and analyzes indicate that medical errors lead to adverse events. While the issue of safety in any health institution is a criterion in itself and a right of t
Using data from English cloze tests, in which subjects also self-reported their gender, age, education, and race, we examine performance differences of pretrained language models across demographic groups, defined by these (protected) attributes. We
Existing work on probing of pretrained language models (LMs) has predominantly focused on sentence-level syntactic tasks. In this paper, we introduce document-level discourse probing to evaluate the ability of pretrained LMs to capture document-level