ترغب بنشر مسار تعليمي؟ اضغط هنا

توليد بيانات البيانات الطبية الحيوية عبر محولات ضبط الدقيقة

Biomedical Data-to-Text Generation via Fine-Tuning Transformers

595   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

إن جيل البيانات إلى النص (D2T) في المجال الطبي الطبيعي هو واعد - ولكن في الغالب غير مستكشفة - مجال البحث.هنا، نطبق النماذج العصبية لتوليد D2T إلى مجموعة بيانات حقيقية تتكون من منشورات الحزمة من الأدوية الأوروبية.نظهر أن المحولات التي تم ضبطها بشكل جيد قادرون على توليد نص واقعي متعدد الجملة من البيانات في المجال الطبي الطبيعي، ولكن لها قيود مهمة.ونحن نطلق أيضا عن مجموعة بيانات جديدة (bioileaflets) لنماذج جيل D2T القياسية في المجال الطبي الطبيعي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

اكتسبت Chatbots Social Chatbots شعبية هائلة، وجاذبيتها لا تكمن فقط في قدرتها على الاستجابة للطلبات المتنوعة من المستخدمين، ولكن أيضا في القدرة على تطوير اتصال عاطفي مع المستخدمين. لتعزيز وتعزيز Chatbots الاجتماعي، نحتاج إلى التركيز على زيادة تفاعل ال مستخدم وتأخذ في الاعتبار كل من الحاصل الفكري والعاطفي في وكلاء المحادثة. لذلك، في هذا العمل، نقترح مهمة المعنويات تدرك العاطفة التي تسيطر عليها توليد الحوار الشخصية التي تمنح الجهاز القدرة على الاستجابة عاطفيا ووفقا لشخصية المستخدم. نظرا لأن المشاعر والعواطف مرتبطة بدرجة كبيرة، نستخدم معرفة المشاعر بالكلام السابق لتوليد الاستجابة العاطفية الصحيحة وفقا لشخص المستخدم. نقوم بتصميم إطار توليد حوار يستند إلى المحولات، ينشئ الردود الحساسة لعاطفة المستخدم ويتوافق مع الشخصية والشاعر أيضا. علاوة على ذلك، يتم تشفير معلومات الشخصية من قبل تشفير محول مختلف، إلى جانب تاريخ الحوار، يتم تغذيةها إلى وحدة فك الترميز لتوليد الاستجابات. ناهز DataSet PersonAchat مع معلومات المشاعر لتحسين جودة الاستجابة. تظهر النتائج التجريبية على DataStet Personachat أن الإطار المقترح يتفوق بشكل كبير على خطوط الأساس الحالية، مما يولد ردود عاطفية شخصية وفقا للمشاعر التي توفر اتصال عاطفي أفضل ورضا المستخدمين كما هو مطلوب في chatbot الاجتماعي.
أدت التطورات الأخيرة في الشبكات العصبية إلى التقدم في توليد البيانات إلى النص.ومع ذلك، فإن الافتقار إلى قدرة النماذج العصبية للسيطرة على هيكل الإخراج الذي تم إنشاؤه يمكن أن يحد في بعض تطبيقات العالم الحقيقي.في هذه الدراسة، نقترح إطارا جديدا لخطة الرو اية (Plangen) لتحسين قابلية تحكم نماذج البيانات النصية العصبية.يتم إجراء تجارب واسعة من التجارب والتحليلات على مجموعة من مجموعات البيانات القياسية، Totto و Webnlg.تظهر النتائج أن نموذجنا قادر على التحكم في كل من الجملة داخل الجملة وبنية الجملة بين الإخراج الناتج.علاوة على ذلك، تظهر المقارنات التجريبية ضد الأساليب السابقة من الأساليب السابقة أن نموذجنا يحسن جودة التوليد وكذلك تنوع الإخراج عند الحكم على التقييمات البشرية والآلية.
يحقق النماذج المحددة ذات الأهداف الإشراف ذاتية الإشراف على النصوص الكبيرة على تحقيق أداء حديثة على مهام تلخيص النص الإنجليزية. ومع ذلك، فإن هذه النماذج عادة ما يتم ضبطها على مئات الآلاف من نقاط البيانات، ومتطلبات غير قابلة للتنفيذ عند تطبيق تلخيص لمج الات مخصصة جديدة. في هذا العمل، نقدم طريقة جديدة ومتعمول، تسمى Wikitransfer، للحصول على نماذج مطاطية دقيقة مسبقا للتلخيص بطريقة غير منشأة، خاصة بموجب البيانات. Wikitransfer Ground-Descrees نماذج مسبقا على الملخصات الزائفة، التي تم إنتاجها من بيانات Wikipedia العامة، والتي تحتوي على خصائص DataSet المستهدفة، مثل طول ومستوى التجريد من الملخصات المرغوبة. حقق نماذج Wikitransfer أداء موجات خارجي من بين الفن، وهو أداء التلخيص المبشط عن الصفر على مجموعة بيانات CNN-Dailymail وإظهار فعالية نهجنا على ثلاث مجموعات بيانات متنوعة إضافية. هذه النماذج هي أكثر قوة للبيانات الصاخبة وكذلك تحقيق أداء أقل أو قابلة للمقارنة قليلا باستخدام 10 و 100 أمثلة تدريبية عند مقارنة بنقل القليل من بيانات الملخصات الأخرى. لتعزيز الأداء، نؤدي إلى زيادة تكبير البيانات عبر الترجمة المستديرة الرحلة وكذلك إدخال مصطلح تنظيمي لتحسين تحويل القليل من الرصاص. لفهم دور جوانب البيانات في أداء النقل ونوعية ملخصات الإخراج الناتجة، فإننا ندرس تأثير مكونات مكونات بيانات الطاقة الدقيقة الخاصة بنا وتحليل الأداء القليل من الأداء باستخدام التقييم التلقائي والبشري.
أدت مؤخرا مؤخرا الرسوم البيانية تم التنبؤ بمعنى التجريدي المعني (AMR) باستخدام نماذج محولات تسلسل التسلسل المدربة مسبقا إلى تحسينات كبيرة على معايير تحليل AMR. هذه المحللون بسيطة وتجنب النمذجة الصريحة للهيكل ولكن تفتقر إلى خصائص مرغوبة مثل ضمانات الر سوم البيانية بشكل جيد أو محاذاة الرسم الرسم البياني المدمج. في هذا العمل، نستكشف دمج نماذج لغة التسلسل العامة المدربة مسبقا ونهج بناء على الهيكل. نغادر من نظام انتقال مقره مؤشر واقتراح مجموعة انتقالية مبسطة، مصممة لتحسين استغلال نماذج اللغة المدربة مسبقا للضبط الناعم الهيكل. نحن نستكشف أيضا نمذجة ولاية المحللين داخل بنية فك التشفير المدربة مسبقا واستراتيجيات المفردات المختلفة لنفس الغرض. نحن نقدم مقارنة مفصلة مع التقدم المحرز الأخير في تحليل عمرو وإظهار أن المحلل المحلل المقترح يحتفظ بالخصائص المرغوبة للمناهج السابقة القائمة على الانتقال، بينما تكون أكثر بساطة والوصول إلى حالة التحليل الجديدة للفن AMR 2.0، دون الحاجة إلى إعادة الرسم البياني الفصداء.
تقارير هذه الورقة أنظمة الترجمة الآلية المقدمة من فريق IIITT للغة الإنجليزية → أزواج اللغة المهاراتية والإنجليزية أزواج LORESMT 2021 المشاركة المشتركة.تركز المهمة على الحصول على ترجمات استثنائية لغات منخفضة بالموارد منخفضة إلى حد ما مثل الأيرلندية وا لماراثية.نحن نايت Tune Endertrans، نموذج NMT متعدد اللغات مسبقا للغة الإنجليزية → Marathi، باستخدام Corpus الموازي الخارجي كمدخل للتدريب الإضافي.لقد استخدمنا نموذج English Helsinki-NLP Opus Mt للزواج باللغة الأخير.تؤدي نهجنا إلى نتائج واعدة نسبيا على مقاييس بلو.تحت اسم الفريق IIITT، تصنيف أنظمتنا في المرتبة 1، 1، و 2 باللغة الإنجليزية → الماراثي، الأيرلندية → الإنجليزية، والإنجليزية → الأيرلندية على التوالي.يتم نشر رموز أنظمتنا 1.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا