نحن نعتبر مشكلة التعلم بتبسيط النصوص الطبية. هذا مهم لأن معظم المعلومات الأكثر موثوقية وحديثة في الطب الحيوي كثيفة مع Jargon وبالتالي لا يمكن الوصول إليها عمليا للجمهور العادي. علاوة على ذلك، لا يتجاوز التبسيط اليدوي للجسم بسرعة متزايدة من الأدب الطبي الطبيعي، يحفز الحاجة إلى النهج الآلي. لسوء الحظ، لا توجد موارد واسعة النطاق المتاحة لهذه المهمة. في هذا العمل، نقدم جثة جديدة من النصوص الموازية باللغة الإنجليزية تضم ملخصات تقنية ووضع جميع الأدلة المنشورة المتعلقة بالموضوعات السريرية المختلفة. بعد ذلك، نقترح مقياسا جديدا يستند إلى درجات احتمالية من نموذج لغة ملثم مسبقا على النصوص العلمية. نظهر أن هذا التدبير الآلي يتحمل أفضل بين الملخصات التقنية والوضعية من الاستدلال القائمة. نقدم وتقييم نماذج محول ترميز تشفير الأساس لتبسيطها واقتراح تكبير رواية لهذه التي تعاقب فيها بشكل صريح فك الترميز لإنتاج مصطلحات JARGON؛ نجد أن هذا يجرض التحسينات على أساس الأساس من حيث قابلية القراءة.
We consider the problem of learning to simplify medical texts. This is important because most reliable, up-to-date information in biomedicine is dense with jargon and thus practically inaccessible to the lay audience. Furthermore, manual simplification does not scale to the rapidly growing body of biomedical literature, motivating the need for automated approaches. Unfortunately, there are no large-scale resources available for this task. In this work we introduce a new corpus of parallel texts in English comprising technical and lay summaries of all published evidence pertaining to different clinical topics. We then propose a new metric based on likelihood scores from a masked language model pretrained on scientific texts. We show that this automated measure better differentiates between technical and lay summaries than existing heuristics. We introduce and evaluate baseline encoder-decoder Transformer models for simplification and propose a novel augmentation to these in which we explicitly penalize the decoder for producing jargon'' terms; we find that this yields improvements over baselines in terms of readability.
المراجع المستخدمة
https://aclanthology.org/
تبسيط النص هو تقنية قيمة.ومع ذلك، يقتصر البحث الحالي على تبسيط الجملة.في هذه الورقة، نحدد والتحقيق في مهمة جديدة من تبسيط نص المستندات على مستوى المستند، والتي تهدف إلى تبسيط وثيقة تتكون من جمل متعددة.بناء على مقالب ويكيبيديا، نقوم أولا ببناء مجموعة
الترجمة الترجمة الشفوية أو الشرح هي مجال بحث ناشئ في NLP. من وجهة نظر متعلقة بالمستخدم، يكون الهدف هو بناء نماذج توفر مبرر مناسب لقراراتها، مماثلة لتلك الإثارة، من خلال مطالبة النماذج بإرضاء قيود إضافية. تحقيقا لهذه الغاية، نقدم طلبا جديدا على النص ا
توليد الفقرات من المحتويات المتنوعة مهمة في العديد من التطبيقات.تنتج نماذج الجيل الموجودة محتويات مماثلة من السياقات المتجانسة بسبب ترتيب الجملة الثابتة إلى اليمين.تتبنى فكرتنا أوامر الجملة لتحسين تنوع المحتوى من الفقرة متعددة الجملة.نقترح برجعة إطار
البحث عن وثائق قانونية هي مهمة متخصصة لاسترجاع المعلومات ذات الصلة لمستخدمي الخبراء (المحامين ومساعدتهم) وللمستخدمين غير الخبراء. من خلال البحث في قرارات المحكمة السابقة (الحالات)، يمكن للمستخدم إعداد التفكير القانوني بشكل أفضل من حالة جديدة. القدرة
تستخدم أسئلة متعددة الخيارات (MCQs) على نطاق واسع في تقييم المعرفة في المؤسسات التعليمية، أثناء مقابلات العمل، في الاختبارات الترفيهية والألعاب.على الرغم من أن البحث عن الجيل التلقائي أو شبه التلقائي من عناصر اختبار متعددة الخيارات قد أجريت منذ بداية