دمج معرفة المجال إلى محولات اللغة للحصول على تصنيف متعدد التسميات للأسئلة الطبية الصينية


الملخص بالعربية

في هذه الورقة، نقترح آلية تسريب المعرفة لإدماج معرف المجال إلى محولات اللغة. يعتبر البيانات الخاضعة للإشراف ضعيفا كمصدر رئيسي للاستحواذ على المعرفة. نحن ندرب نماذج اللغة مسبقا لالتقاط المعرفة الملثمين بالتركيز والجوانب ثم قم بضبطها للحصول على أداء أفضل على مهام المصب. نظرا لعدم وجود مجموعات بيانات متوفرة للجمهور لتصنيف متعدد التسميات للأسئلة الطبية الصينية، زحفنا أسئلة من منتديات السؤال الطبي / الإجابة وشرحتها يدويا باستخدام ثمانية فصول محددة مسبقا: الأشخاص والمنظمات، والأعراض، والسبب، والفحص والمرض، والمعلومات، المكون، والعلاج. أخيرا، ما مجموعه 1814 سؤالا مع 2،340 ملميا. يحتوي كل سؤال على متوسط ​​1.29 ملصقات. استخدمنا موسوعة بايدو الطبية كمورد المعرفة. تم تنفيذ برت محولين وروبرتا لمقارنة الأداء على مجموعات بياناتنا المبنية. أظهرت النتائج التجريبية أن نموذجنا المقترح مع آلية ضخ المعرفة يمكن أن يحقق أداء أفضل، بغض النظر عن متري التقييم بما في ذلك ماكرو F1 أو مايكرو F1 أو الدقة المزدوجة الواردة في الدقة الفرعية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث