ترغب بنشر مسار تعليمي؟ اضغط هنا

تتمثل التعريف بإعادة الصياغة (PI)، وهي مهمة أساسية في معالجة اللغة الطبيعية، هي تحديد ما إذا كانت الجملتين تعبر عن نفس المعنى المماثل، وهي مشكلة تصنيف ثنائية. في الآونة الأخيرة، كانت النماذج اللغوية المدربة مسبقا بيرت هي خيارا شائعا لأطر نماذج PI الم ختلفة، ولكن جميع الطرق الحالية تقريبا تنظر في نص مجال عام. عندما يتم تطبيق هذه الأساليب على مجال معين، لا يمكن أن تكتب النماذج الحالية تنبؤات دقيقة بسبب نقص المعرفة المهنية. في ضوء هذا التحدي، نقترح إطارا جديدا، وهو، الذي يمكن أن يستفيد من المعرفة الخارجية غير المنظمة في ويكيبيديا لتحديد المواطن بدقة. نقترح علما مخلاصة المعرفة بالمفاهيم المتعلقة بحكمات معينة من ويكيبيديا عبر نموذج BM25. بعد استرداد المعرفة المخططة ذات الصلة، يجعل التنبؤات بناء على كل من المعلومات الدلالية للجملتين ومعرفة الخطوط العريضة. إضافة إلى ذلك، نقترح آلية Gating تجميع التنبؤ الدلالي القائم على المعلومات والتنبؤ القائم على المعرفة. تتم إجراء تجارب واسعة على مجموعة بيانات عامين: العرض (مجموعة بيانات مجال علوم الكمبيوتر) و Clinicalsts2019 (مجموعة بيانات مجال الطب الحيوي). تشير النتائج إلى أن الأساليب المتوفرة التي تتفوقت على أحدث الأحوال.
يعرض هذا العمل رواية خط أنابيب QA مفتوحة من أربعة مراحل R2-D2 (رتبة مرتين، اقرأ مرتين).يتكون خط الأنابيب من المسترد والمرور Reranker وقارئ استخراجي وقارئ عام وآلية تعزز التنبؤ النهائي من جميع مكونات النظام.نوضح قوتها عبر ثلاث مجموعات بيانات QA المجال المفتوحةيوضح تحليلنا على ما يلي: (1) الجمع بين القارئ الاستخراجي والمؤدي يحقق تحسينات مطلقة تصل إلى 5 مباراة محددة، وعلى الأقل ضعف كفاءة مثل الفرع الخلفي من نفس النماذج مع معلمات مختلفة، (2) القارئ الاستخراجي مع أقليمكن للممعلمات مطابقة أداء قارئ التوليد في مجموعات بيانات QA الاستخراجية.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا