ترغب بنشر مسار تعليمي؟ اضغط هنا

توليد البيانات الاصطناعية والتعلم المتعدد المهام لاستخراج المعلومات الزمنية من النص السردي المرتبط بالصحة

Synthetic Data Generation and Multi-Task Learning for Extracting Temporal Information from Health-Related Narrative Text

298   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

استخراج المعلومات الزمنية أمر بالغ الأهمية لمعالجة النص المتعلق بالصحة. إن استخراج المعلومات الزمنية هي مهمة صعبة للنماذج اللغوية لأنها تتطلب معالجة النصوص والأرقام. علاوة على ذلك، فإن التحدي الأساسي هو كيفية الحصول على مجموعة بيانات تدريبية واسعة النطاق. لمعالجة هذا، نقترح خوارزمية توليد البيانات الاصطناعية. أيضا، نقترح نموذج استخراج المعلومات الزمني متعدد المهام الجديد والتحقيق فيما إذا كان التعلم متعدد المهام يمكن أن يسهم في تحسين الأداء من خلال استغلال إشارات تدريبية إضافية مع بيانات التدريب الحالية. بالنسبة للتجارب، جمعنا مجموعة بيانات مخصصة تحتوي على نصوص غير منظم مع المعلومات الزمنية للأنشطة المتعلقة بالنوم. تظهر النتائج التجريبية أن استخدام البيانات الاصطناعية يمكن أن تحسن الأداء عندما يكون عامل التكبير 3. النتائج تظهر أيضا أنه عند استخدام التعلم متعدد المهام مع كمية مناسبة من البيانات الاصطناعية، يمكن أن يتحسن الأداء بشكل كبير من 82. إلى 88.6 ومن 88.6 ومن 83.9 إلى 91.9 فيما يتعلق بعشرات المطابقة الدقيقة والمتوسط ​​الكلي من التوقعات في الوقت المحدد، على التوالي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يركز Profner-St على اعتراف المهن والمهن من تويتر باستخدام البيانات الإسبانية.تعتمد مشاركتنا على مزيج من Adgeddings على مستوى الكلمات، بما في ذلك بيرت الإسبانية المدربة مسبقا، بالإضافة إلى تشابه التموين المحسوبة فوق مجموعة فرعية من الكيانات التي تعمل كمدخل للحصول على بنية فك تشفير التشفير مع آلية الاهتمام.أخيرا، حقق أفضل درجة لدينا قياس F1 من 0.823 في مجموعة الاختبار الرسمية.
تبنت النهج الحديثة التجريدية لجيل النص إلى النص بنية فك التشفير الناجحة للغاية أو المتغيرات منها.تولد هذه النماذج نصا يجيد (ولكن في كثير من الأحيان غير دقيقة) وإجراء سيئة للغاية عند تحديد المحتوى المناسب وطلبه بشكل متماسك.للتغلب على بعض هذه القضايا، نقترح نموذجا عصبا بمرحلة تخطيط ماكرو تذكرنا مرحلة جيل تذكرنا بالطرق التقليدية التي تعتنق وحدات منفصلة للتخطيط وإعمال السطح.تمثل خطط الماكرو تنظيما رفيع المستوى للمحتوى الهام مثل الكيانات والأحداث وتفاعلاتها؛يتم تعلمهم من البيانات وإتاحة كمدخلات للمولد.تبين تجارب واسعة على معايير بيانات إلى نصية (Rotowire و MLB) أن نهجنا يتفوق على خطوط أساس تنافسية من حيث التقييم التلقائي والبشري.
إحدى التحديات في استرجاع المعلومات (IR) هي مشكلة عدم تطابق المفردات، والتي تحدث عندما تكون الشروط بين الاستفسارات والمستندات مختلفة بشكل جذابي ولكنها مماثلة دلالة. في حين اقترح العمل الحديث توسيع الاستعلامات أو المستندات من خلال إثراء تمثيلاتها مع مص طلحات ذات صلة إضافية لمعالجة هذا التحدي، فإنها عادة ما تتطلب حجم كبير من أزواج المستندات لتدريب نموذج التوسع. في هذه الورقة، نقترح توسيع مستندات غير محفوظة مع إطار عمل جيل (UDEG) مع نموذج لغة مدرب مسبقا، مما يولد جمل تكميلية متنوعة للمستند الأصلي دون استخدام تسميات على أزواج المستندات للاستعلام للتدريب. لتوليد الجمل، فإننا ناضطنا بشكل غير منتفضل بإداراتهم لتوليد جمل أكثر تنوعا للتوسع المستند. نحن نتحقق من صحة إطار عملائنا على مجموعة بيانات القياسية القياسية. تظهر النتائج أن إطارنا يتفوق بشكل كبير على خطوط الأساس التوسع ذات الصلة إلى الأشعة تحت الحمراء.
نقترح معالجة مهام توليد البيانات إلى النص عن طريق الربط مباشرة من جانب شرائح النص من الأزواج المستهدفة من الجيران.على عكس العمل الحديث الذي تقوم بالشروط على الجيران المسترجع ولكن يولد رمزا نصي نصي، من اليسار إلى اليمين، نتعلم السياسة التي تتعامل مباش رة على شرائح النص الجار، عن طريق إدخال أو استبدالها بأجيال مبنية جزئيا.تتطلب التقنيات القياسية للتدريب مثل هذه السياسة عن اشتقاق أوراكل لكل جيل، ونثبت أن العثور على أقصر مثل هذا الاشتقاق يمكن تخفيضها إلى التحليل تحت قواعد محددة معينة خالية من السياق.نجد أن السياسات المستفادة بهذه الطريقة تؤدي على قدم المساواة مع خطوط أساس قوية من حيث التقييم التلقائي والبشري، ولكن السماح لمزيد من الجيل القابل للتفسير والتحكم.
أدت التطورات الأخيرة في الشبكات العصبية إلى التقدم في توليد البيانات إلى النص.ومع ذلك، فإن الافتقار إلى قدرة النماذج العصبية للسيطرة على هيكل الإخراج الذي تم إنشاؤه يمكن أن يحد في بعض تطبيقات العالم الحقيقي.في هذه الدراسة، نقترح إطارا جديدا لخطة الرو اية (Plangen) لتحسين قابلية تحكم نماذج البيانات النصية العصبية.يتم إجراء تجارب واسعة من التجارب والتحليلات على مجموعة من مجموعات البيانات القياسية، Totto و Webnlg.تظهر النتائج أن نموذجنا قادر على التحكم في كل من الجملة داخل الجملة وبنية الجملة بين الإخراج الناتج.علاوة على ذلك، تظهر المقارنات التجريبية ضد الأساليب السابقة من الأساليب السابقة أن نموذجنا يحسن جودة التوليد وكذلك تنوع الإخراج عند الحكم على التقييمات البشرية والآلية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا