إن أنظمة الإجابة على السؤال الطبي (QA) لديها القدرة على الرد على أوجه عدم اليقين للأطباء حول العلاج والتشخيص عند الطلب، على علم بأحدث الأدلة.ومع ذلك، على الرغم من التقدم الكبير في عام ضمان الجودة التي أدلى بها مجتمع NLP، لا تزال أنظمة ضمان الجودة الط
بية تستخدم على نطاق واسع في البيئات السريرية.أحد الأسباب المحتملة لهذا هو أن الأطباء قد لا يرجعون بسهولة مخرجات نظام ضمان الجودة، جزئيا لأن الشفافية والثقة بالثقة، ولم تكن الأصل اعتبارات رئيسية في تصميم هذه النماذج.في هذه الورقة، نناقش مجموعة من المعايير التي، إذا التقت، فمن المرجح أن تزيد من المرجح أن تزيد من فائدة أنظمة ضمان الجودة الطبية الحيوية، والتي قد تؤدي بدورها إلى اعتماد هذه النظم في الممارسة العملية.نقوم بتقييم النماذج والمهام والموادات الموجودة فيما يتعلق بهذه المعايير وتسليط الضوء على أوجه القصور من الأساليب المقترحة سابقا والشديد نحو ما قد يكون أكثر قدرة للاستخدام من أنظمة ضمان الجودة.
معظم أساليب الإجابة على الأسئلة القائمة على المعرفة الحالية (KBQA) تعلم أولا تعيين السؤال المحدد في رسم بياني للاستعلام، ثم قم بتحويل الرسم البياني إلى استعلام قابل للتنفيذ للعثور على الإجابة.عادة ما يتم توسيع الرسم البياني للاستعلام تدريجيا من كيان
الموضوع بناء على نموذج تنبؤ التسلسل.في هذه الورقة، نقترح حل جديد للاستعلام عن جيل الرسم البياني الذي يعمل بالطريقة المعاكسة: نبدأ مع قاعدة المعرفة بأكملها وتقليصها تدريجيا إلى الرسم البياني للاستعلام المرغوب فيه.يعمل هذا النهج على تحسين كفاءة ودقة جيل الرسم البياني للاستعلام، خاصة بالنسبة لأسئلة قفز متعددة المعقدة.تظهر النتائج التجريبية أن طريقتنا تحقق أداء حديثة على مجموعة بيانات ComplexwebQuestion (CWQ).
أظهرت نماذج الرؤية اللغوية المدربة مسبقا أداء رائعا حول مهمة الإجابة على السؤال المرئي (VQA). ومع ذلك، يتم تدريب معظم النماذج المدربة مسبقا من خلال النظر فقط في التعلم أحادي الأونلينغ، وخاصة اللغة الغنية بالموارد مثل اللغة الإنجليزية. تدريب هذه النما
ذج للكمات متعددة اللغات طلب موارد الحوسبة عالية ومجموعات بيانات الرؤية متعددة اللغات التي تعيق تطبيقها في الممارسة العملية. لتخفيف هذه التحديات، نقترح نهج تقطير المعرفة لتوسيع نموذج للرؤية باللغة الإنجليزية (المعلم) في نموذج متعدد اللغات ومزوج التعليمات البرمجية (طالبة). على عكس أساليب تقطير المعرفة الحالية، والتي تستخدم فقط الإخراج من الطبقة الأخيرة من شبكة المعلم للتقطير، يتعلم نموذج الطالب الخاص بنا وتقليد المعلم من طبقات متعددة الوسائط (تشفير اللغة والرؤية) بأهداف تقطير مصممة بشكل مناسب لاستخراج المعرفة الإضافية وبعد كما نقوم بإنشاء مجموعة بيانات VQA متعددة اللغات متعددة اللغات متعددة اللغات وخلطها في أحد عشر جهازا مختلفا للنظر في اللغات الهندية والأوروبية المتعددة. تظهر النتائج التجريبية والتحليل المتعمق فعالية نموذج VQA المقترح على نماذج الرؤية المدربة مسبقا في الرؤية المدربة مسبقا في أحد عشر من إعدادات لغة متنوعة.
نحن نتعامل مع استجابة سؤال متعددة الاختيار.الحصول على معرفة المنطقية ذات الصلة بالسؤال والخيارات يسهل الاعتراف بالإجابة الصحيحة.ومع ذلك، تعاني نماذج التفكير الحالية من الضوضاء في المعرفة المستردة.في هذه الورقة، نقترح طريقة ترميز جديدة قادرة على إجراء
الاعتراض والتصفية الناعمة.وهذا يساهم في حصاد وامتصاص المعلومات التمثيلية مع تدخل أقل من الضوضاء.نقوم بتجربة commonsenseqa.توضح النتائج التجريبية أن طريقتنا تعطي تحسينات كبيرة ومتسقة مقارنة بخدمات الأساس والقاعدة القائمة على روبرتا وألبرت.
تم إنشاء العديد من مجموعات البيانات لتدريب نماذج الفهم في القراءة، والسؤال الطبيعي هو ما إذا كان يمكننا دمجها لبناء النماذج التي (1) أداء أفضل على جميع مجموعات بيانات التدريب و (2) تعميم وتحويل أفضل بيانات جديدة إلى مجموعات البيانات الجديدة. عالج الع
مل المسبق هذا الهدف من خلال تدريب شبكة واحدة في وقت واحد على مجموعات بيانات متعددة، والتي تعمل بشكل جيد في المتوسط ولكنها عرضة للتوزيعات الفرعية المختلفة أو غير الضرورية ويمكن نقلها أسوأ مقارنة بالنماذج المصدر بأكثر تداخل مع DataSet المستهدف. يتمثل نهجنا في نموذج سؤال متعدد البيانات مستجيب مع مجموعة من خبراء DataSet واحد، من خلال تدريب مجموعة من وحدات محول محول خفيفة الوزن وخفيفة الوزن (Houlsby et al.، 2019) التي تشترك في نموذج محول أساسي. نجد أن خبراء مجموعة البيانات متعددة المحولات (صنع) تفوقوا جميع خطوط الأساس لدينا من حيث دقة التوزيع، والأساليب البسيطة القائمة على متوسط المعلمة تؤدي إلى تحسين التعميم الصفرية وأداء قليل من الرصاص، مما يوفر قويا و نقطة انطلاق متعددة الاستخدامات لبناء أنظمة مفهوم القراءة الجديدة.
في إجابة سؤال مفتوحة بسيطة (QA)، أصبح استرجاع كثيف أحد الأساليب القياسية لاستعادة المقاطع ذات الصلة إلى استنتاج إجابة.في الآونة الأخيرة، حققت الاسترجاع الكثيف أيضا نتائج أحدث النتائج في هفور تشاينا، حيث يلزم تجميع المعلومات من أجزاء متعددة من المعلوم
ات والمناسبات عليها.على الرغم من نجاحها، فإن أساليب استرجاع كثيفة هي مكثفة حسابية، مما يتطلب تدريب GPUs المتعدد للتدريب.في هذا العمل، نقدم نهجا هجينا (معجميا وتكثيفا) تنافسية للغاية مع نماذج استرجاع كثيفة الحديث، مع مطالبة موارد حسابية أقل بكثير.بالإضافة إلى ذلك، نحن نقدم تقييم متعمق لأساليب استرجاع كثيفة على إعدادات الموارد الحاسوبية المحدودة، وهو شيء مفقود من الأدبيات الحالية.
في حين أن مجموعات بيانات الإجابة على الأسئلة المتنوعة (QA) اقترحت وساهمت بشكل كبير في تطوير نماذج التعلم العميق لمهام ضمان الجودة، فإن البيانات الحالية تقصر في جوانبين. أولا، نفتقر إلى مجموعات بيانات ضمان الجودة التي تغطي الأسئلة المعقدة التي تنطوي ع
لى إجابات بالإضافة إلى عمليات التفكير للحصول عليها. نتيجة لذلك، لا تزال أبحاث ضمنيا في ضمان الجودة العددية تركز على حسابات بسيطة ولا توفر التعبيرات الرياضية أو الأدلة التي تبرر الإجابات. ثانيا، ساهم مجتمع ضمان الجودة في الكثير من الجهد لتحسين إمكانية تفسير نماذج QA. ومع ذلك، فإنهم يفشلون في إظهار عملية التفكير صراحة، مثل أمر الأدلة من أجل التفكير والتفاعلات بين الأدلة المختلفة. لمعالجة العيب المذكور أعلاه، نقدم Noahqa ومجموعة بيانات QA محادثة وثنائية اللغة مع أسئلة تتطلب التفكير العددي مع التعبيرات الرياضية المركبة. مع Noahqa، نقوم بتطوير رسم بياني لتفكير قابل للتفسير بالإضافة إلى متري التقييم المناسب لقياس جودة الإجابة. نقوم بتقييم حديثة نماذج ضمان الجودة المدربة باستخدام مجموعات بيانات QA الحالية على Noahqa وإظهار أن الأفضل من بينها يمكن فقط تحقيق 55.5 عشر درجات مطابقة محددة، في حين أن الأداء البشري هو 89.7. نقدم أيضا نموذجا جديدا في ضمان الجودة لتوليد رسم بياني للمنطق حيث لا يزال متري الرسم البياني للمنطق فجوة كبيرة مقارنة بمركبات البشر، على سبيل المثال، 28 درجات.
نماذج الإجابة على الأسئلة (QA) تستخدم أنظمة المسترد والقارئ للإجابة على الأسئلة.يمكن الاعتماد على البيانات التدريبية من قبل أنظمة ضمان الجودة أو تعكس عدم المساواة من خلال ردودهم.يتم تدريب العديد من نماذج QA، مثل تلك الخاصة ب DataSet Squad، على مجموعة
فرعية من مقالات ويكيبيديا التي تشفص لتحيزاتها الخاصة وإعادة إنتاج عدم المساواة في العالم الحقيقي.فهم كيفية تأثير البيانات التدريبية على التحيز في أنظمة ضمان الجودة يمكن أن تبلغ الأساليب لتخفيف عدم المساواة.نقوم بتطوير مجموعتين من الأسئلة لأسئلة النطاق المغلقة والفتوة على التوالي، والتي تستخدم أسئلة غامضة لتحقيق نماذج QA للتحيز.نطعم ثلاثة أنظمة ضمان الجودة في التعلم العميق مع مجموعات الأسئلة الخاصة بنا وتقييم الردود على التحيز عبر المقاييس.باستخدام مقاييسنا، نجد أن نماذج QA المجال المفتوحة تضخيم التحيزات أكثر من نظيرهم المغلقة من النطاق واقتراح أن يتحيزات في سطح المسترد بسهولة أكبر بسبب حرية الاختيار أكبر.
الإجابة على الأسئلة الأساسية للمعرفة (KBQA) هي الإجابة على أسئلة اللغة الطبيعية المطروحة على قواعد المعرفة (KBS).هذه الأهداف الورقية في تمكين نماذج KBQA القائمة على IR مع قدرة المنطق العددي للإجابة على أسئلة مقيدة ترتيبية.التحدي الرئيسي هو عدم وجود ش
روح واضحة حول الخصائص العددية.لمعالجة هذا التحدي، نقترح نموذجا للتفكير العددي الذي يتألف من Numgnn و Numtransformer، يسترشد بإشارات مراقبة ذاتية صريحة.يتم الاحترام من الوحداتتين لتشميز الحجم والخصائص الترتيبية للأرقام على التوالي ويمكن أن تكون بمثابة إضافات نموذجية للأذرع لأي نموذج KBQA المستندة إلى IR لتعزيز قدرة التفكير العددي.تجارب واسعة على معايير KBQA تحقق من فعالية طريقتنا لتعزيز قدرة التفكير العددي لنماذج KBQA القائمة على IR.
تتوفر أنظمة الإجابة على الأسئلة (QA) الآن من خلال العديد من التطبيقات التجارية لمجموعة واسعة من المجالات، مما يخدم ملايين المستخدمين الذين يتفاعلون معهم عبر واجهات الكلام.ومع ذلك، فإن المعايير الحالية في أبحاث ضمنيا لا تحسب الأخطاء التي قد تعرضها نما
ذج التعرف على الكلام، ولا تفكر في اختلافات اللغة (لهجات) للمستخدمين.لمعالجة هذه الفجوة، نزيد من مجموعة بيانات QA الحالية لبناء معيارا متعدد الهياكل المتعددة، معيار QA المنطوقة في خمس لغات (العربية، البنغالية، الإنجليزية، الكورية، الكورية) مع أكثر من 68K Audio مطالبات في 24 لهجة من 255 متحدثا.نحن نقدم نتائج خط الأساس عرض الأداء العالمي الحقيقي لأنظمة ضمان الجودة وتحليل تأثير مجموعة متنوعة اللغات وغيرها من سمات المتكلم الحساسة على أداء المصب.أخيرا، ندرس عدالة نماذج ASR و QA فيما يتعلق بسكان المستخدمين الأساسيين.