يعرض نماذج Resunding Runing Running لتلخيص محادثة محادثة الطبيب تلقائيا العديد من التحديات: بيانات تدريب محدودة، ونقل مجال كبير، والنصوص الطويلة والصعارية، والتقلبات الموجزة عالية الهدف. في هذه الورقة، نستكشف جدوى استخدام نماذج المحولات مسبقا لتلخيص محادثات الطبيب المريض تلقائيا مباشرة من النصوص. نظهر أنه يمكن إنشاء ملخصات بطلاقة وكافية بيانات تدريبية محدودة من قبل BARTING BART على مجموعة بيانات شيدة خصيصا. تتجاوز النماذج الناتجة بشكل كبير أداء Annotator البشري المتوسط ونوعية العمل المنشور السابق للمهمة. نقيم طرق متعددة للتعامل مع المحادثات الطويلة، ومقارنتها إلى خط الأساس الواضح لاقتطاع المحادثة لتناسب حد الطول المحدد مسبقا. نقدم نهجا متعدد المراحل يتناول المهمة من خلال تعلم اثنين من النماذج الدقيقة: واحد لتلخيص قطع المحادثة في ملخصات جزئية، تليها واحدة لإعادة كتابة مجموعة الملخصات الجزئية إلى ملخص كامل. باستخدام مجموعة بيانات ذات ضبط دقيقة تم اختيارها بعناية، تظهر هذه الطريقة فعالة في التعامل مع محادثات أطول، وتحسين جودة الملخصات التي تم إنشاؤها. نقوم بإجراء كل من التقييم التلقائي (من خلال Rouge ومقاييس مقرها المفهوم يركز على النتائج الطبية) وتقييم بشري (من خلال أمثلة نوعية من الأدبيات، تقييم الهلوسة، التعميم، الطلاقة، والنوعية العامة للملخصات التي تم إنشاؤها).
Fine-tuning pretrained models for automatically summarizing doctor-patient conversation transcripts presents many challenges: limited training data, significant domain shift, long and noisy transcripts, and high target summary variability. In this paper, we explore the feasibility of using pretrained transformer models for automatically summarizing doctor-patient conversations directly from transcripts. We show that fluent and adequate summaries can be generated with limited training data by fine-tuning BART on a specially constructed dataset. The resulting models greatly surpass the performance of an average human annotator and the quality of previous published work for the task. We evaluate multiple methods for handling long conversations, comparing them to the obvious baseline of truncating the conversation to fit the pretrained model length limit. We introduce a multistage approach that tackles the task by learning two fine-tuned models: one for summarizing conversation chunks into partial summaries, followed by one for rewriting the collection of partial summaries into a complete summary. Using a carefully chosen fine-tuning dataset, this method is shown to be effective at handling longer conversations, improving the quality of generated summaries. We conduct both an automatic evaluation (through ROUGE and two concept-based metrics focusing on medical findings) and a human evaluation (through qualitative examples from literature, assessing hallucination, generalization, fluency, and general quality of the generated summaries).
المراجع المستخدمة
https://aclanthology.org/
نحن نركز على نماذج الحوار في سياق الدراسات السريرية حيث الهدف هو المساعدة في جمع، بالإضافة إلى المعلومات الوثيقة التي تم جمعها بناء على استبيان معلومات صريحة ذات صلة طبيا.لتعزيز مشاركة المستخدم وعنوان هذا الهدف المزدوج (جمع مجموعة من نقاط البيانات ال
نماذج اللغة واسعة النطاق مثل GPT-3 هي متعلمين بقلة قليلة، مما يتيح لهم السيطرة عليها عبر مطالبات النص الطبيعي. أبلغ الدراسات الحديثة أن التصنيف المباشر الفوري يزيل الحاجة إلى ضبط الدقيقة ولكن يفتقر إلى إمكانية التوسع للبيانات والاستدلال. تقترح هذه ال
سلامة المريض هو مفهوم حديث لكن ليس بجديد في أنظمة الرعاية الصحية العالمية حيث تؤكد التقارير والتحاليل أن الأخطاء الطبية تؤدي إلى حوادث صحية معاكسة وضارة وفي بعض الأحيان وخيمة (Adverse Events & Reactions). ومع العلم بأن موضوع السلامة في أي مؤسسة صحية
استخدام البيانات من اختبارات المرنة الإنجليزية، والتي أبلغت فيها المواضيع ذاتها الذاتي عن جنسهن وعمرها والتعليم والعرق، ندرس اختلافات الأداء في نماذج اللغة المحددة مسبقا عبر المجموعات الديموغرافية، والتي تحددها هذه الصفات (المحمية).نوضح ثغرات أداء وا
تركز العمل الحالي على التحقيق في نماذج اللغة المحددة مسبقا (LMS) في الغالب على المهام الأساسية على مستوى الجملة.في هذه الورقة، نقدم إجراء خطاب على مستوى المستندات لتقييم قدرة LMS المسبقة على التقاط العلاقات على مستوى المستندات.نقوم بتجربة 7 LMS محددة