استخراج المعلومات الزمنية أمر بالغ الأهمية لمعالجة النص المتعلق بالصحة. إن استخراج المعلومات الزمنية هي مهمة صعبة للنماذج اللغوية لأنها تتطلب معالجة النصوص والأرقام. علاوة على ذلك، فإن التحدي الأساسي هو كيفية الحصول على مجموعة بيانات تدريبية واسعة النطاق. لمعالجة هذا، نقترح خوارزمية توليد البيانات الاصطناعية. أيضا، نقترح نموذج استخراج المعلومات الزمني متعدد المهام الجديد والتحقيق فيما إذا كان التعلم متعدد المهام يمكن أن يسهم في تحسين الأداء من خلال استغلال إشارات تدريبية إضافية مع بيانات التدريب الحالية. بالنسبة للتجارب، جمعنا مجموعة بيانات مخصصة تحتوي على نصوص غير منظم مع المعلومات الزمنية للأنشطة المتعلقة بالنوم. تظهر النتائج التجريبية أن استخدام البيانات الاصطناعية يمكن أن تحسن الأداء عندما يكون عامل التكبير 3. النتائج تظهر أيضا أنه عند استخدام التعلم متعدد المهام مع كمية مناسبة من البيانات الاصطناعية، يمكن أن يتحسن الأداء بشكل كبير من 82. إلى 88.6 ومن 88.6 ومن 83.9 إلى 91.9 فيما يتعلق بعشرات المطابقة الدقيقة والمتوسط الكلي من التوقعات في الوقت المحدد، على التوالي.
Extracting temporal information is critical to process health-related text. Temporal information extraction is a challenging task for language models because it requires processing both texts and numbers. Moreover, the fundamental challenge is how to obtain a large-scale training dataset. To address this, we propose a synthetic data generation algorithm. Also, we propose a novel multi-task temporal information extraction model and investigate whether multi-task learning can contribute to performance improvement by exploiting additional training signals with the existing training data. For experiments, we collected a custom dataset containing unstructured texts with temporal information of sleep-related activities. Experimental results show that utilising synthetic data can improve the performance when the augmentation factor is 3. The results also show that when multi-task learning is used with an appropriate amount of synthetic data, the performance can significantly improve from 82. to 88.6 and from 83.9 to 91.9 regarding micro-and macro-average exact match scores of normalised time prediction, respectively.
المراجع المستخدمة
https://aclanthology.org/
يركز Profner-St على اعتراف المهن والمهن من تويتر باستخدام البيانات الإسبانية.تعتمد مشاركتنا على مزيج من Adgeddings على مستوى الكلمات، بما في ذلك بيرت الإسبانية المدربة مسبقا، بالإضافة إلى تشابه التموين المحسوبة فوق مجموعة فرعية من الكيانات التي تعمل
تبنت النهج الحديثة التجريدية لجيل النص إلى النص بنية فك التشفير الناجحة للغاية أو المتغيرات منها.تولد هذه النماذج نصا يجيد (ولكن في كثير من الأحيان غير دقيقة) وإجراء سيئة للغاية عند تحديد المحتوى المناسب وطلبه بشكل متماسك.للتغلب على بعض هذه القضايا،
إحدى التحديات في استرجاع المعلومات (IR) هي مشكلة عدم تطابق المفردات، والتي تحدث عندما تكون الشروط بين الاستفسارات والمستندات مختلفة بشكل جذابي ولكنها مماثلة دلالة. في حين اقترح العمل الحديث توسيع الاستعلامات أو المستندات من خلال إثراء تمثيلاتها مع مص
نقترح معالجة مهام توليد البيانات إلى النص عن طريق الربط مباشرة من جانب شرائح النص من الأزواج المستهدفة من الجيران.على عكس العمل الحديث الذي تقوم بالشروط على الجيران المسترجع ولكن يولد رمزا نصي نصي، من اليسار إلى اليمين، نتعلم السياسة التي تتعامل مباش
أدت التطورات الأخيرة في الشبكات العصبية إلى التقدم في توليد البيانات إلى النص.ومع ذلك، فإن الافتقار إلى قدرة النماذج العصبية للسيطرة على هيكل الإخراج الذي تم إنشاؤه يمكن أن يحد في بعض تطبيقات العالم الحقيقي.في هذه الدراسة، نقترح إطارا جديدا لخطة الرو