ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم مع كميات مختلفة من التوضيحية: من الصفر إلى العديد من الملصقات

Learning with Different Amounts of Annotation: From Zero to Many Labels

293   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتحمل أنظمة Training NLP عادة إمكانية الوصول إلى البيانات المشروحة التي تحتوي على ملصق بشري واحد لكل مثال. بالنظر إلى وضع علامات غير كاملة من الحنجرة والغموض الملازمين من اللغة، فإننا نفترض أن العلامة الفردية ليست كافية لتعلم مجموعة تفسير اللغة. نستكشف مخططات توزيع توضيحية جديدة، وتعيين ملصقات متعددة لكل مثال لمجموعة فرعية صغيرة من أمثلة التدريب. تقديم أمثلة متعددة التوصيل هذه بتكلفة التعليق عدد أقل من الأمثلة التي تجلب مكاسب واضحة حول مهمة مهمة وكتابة الكيان في اللغة الطبيعية، حتى عندما نتدرب أولا مع بيانات تسمية واحدة ثم ضبط أمثلة ملصقات متعددة. تمديد إطار تكبير بيانات مختلط، نقترح خوارزمية التعلم التي يمكن أن تتعلم من الأمثلة التدريبية مع كمية مختلفة من التوضيحية (مع صفر، واحد، أو ملصقات متعددة). تجمع هذه الخوارزمية بكفاءة مع الإشارات من بيانات التدريب غير المتكافئة وتجلب مكاسب إضافية في ميزانية التوضيحية المنخفضة وإعدادات المجال الصليب. معا، تحقق طريقة لدينا مكاسب ثابتة في مهام اثنين، مما يشير إلى أن التسميات التوزيعية بشكل غير متساو بين أمثلة التدريب يمكن أن تكون مفيدة للعديد من مهام NLP.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديث ة تظهر أن مثل هذه الملصقات تتخذ المزيد من الخطوات التدريبية التي سيتم حفظها وتكون نسيانها بشكل أكثر تواترا من الملصقات النظيفة، وبالتالي يتم تحديدها في التدريب. بدافع من هذه الخصائص، نقترح إطارا بسيطا بانتظام بسيطة لاستخراج المعلومات التركز على الكيان، والذي يتكون من العديد من النماذج العصبية مع هياكل متطابقة ولكن تهيئة معلمة مختلفة. يتم تحسين هذه النماذج بشكل مشترك مع الخسائر الخاصة بالمهمة ويتم تنظيمها لتوليد تنبؤات مماثلة تستند إلى فقدان اتفاقية، تمنع التجديدات الخارجية على الملصقات الصاخبة. تظهر تجارب واسعة على نطاق واسع على نطاق واسع ولكن صاخبة لاستخراج المعلومات، Tacred و Conll03، فعالية إطار عملنا. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.
الكيانات الطبية الحيوية المسماة معقدة، لذلك تم استخدام مطابقة تقريبية لتحسين تغطية الكيان.ومع ذلك، فإن نهج المطابقة التقريب المعتادة يجلب نتيجة مطابقة واحدة فقط، والتي غالبا ما تكون صاخبة.في هذا العمل، نقترح طريقة لنقل الطبية الحيوية التي يجلب مباريا ت تقريبية متعددة لجملة معينة للاستفادة من أشكالها لتقدير تشابه الكيان.يستخدم النموذج تجمع لتجاهل المعلومات غير الضرورية من نتائج المطابقة الصاخبة، وتعلم كيان تشابه العبارة مع العديد من المباريات التقريبية.النتائج التجريبية على ثلاثة مجموعات بيانات معطرة من المجال الطبي الطبيعي، BC2GM، مرض NCBI، و BC4Chemd، إظهار الفعالية.يعمل نموذجنا في تحسين المتوسط بنسبة تصل إلى +0.21 نقطة مقارنة مع NER القائم على BIOBERT.
يعد تطبيع المفهوم للنصوص السريرية للتصنيفات الطبية القياسية والاتجاهات مهمة ذات أهمية عالية للبحث الطبي للرعاية الصحية. نحاول حل هذه المشكلة من خلال ترميز CT التلقائي CT، حيث يعد CT Snomed CT أحد أونولوجيات المصطلحات السريرية الأكثر استخداما وشاملة ع لى نطاق واسع. ومع ذلك، فإن تطبيق نماذج التعلم العميق الأساسية يؤدي إلى نتائج غير مرغوب فيها بسبب الطبيعة غير المتوازنة للبيانات والعدد المتطرف من الفصول الدراسية. نقترح إجراء التصنيف الذي يحتوي على سير عمل متعدد الخطوات يتكون من تجميع الملصقات، والتصنيف متعدد الكتلة، ورسم الخرائط عن المجموعات إلى الملصقات. بالنسبة للتصنيف متعدد المجموعات، BioBert يتم ضبطه بشكل جيد على مجموعة بياناتنا المخصصة. يتم إجراء تعيين مجموعات إلى التسميات من قبل A One-VS-All Mederifier (SVC) المطبق على كل كتلة واحدة. نقدم أيضا خطوات لتوليد البيانات التلقائي من الأوصاف النصية المشروحة مع رموز CT Conomed بناء على البيانات العامة والبيانات المفتوحة المرتبطة. من أجل التعامل مع المشكلة أن DataSet لدينا غير متوازنة للغاية، يتم تطبيق بعض طرق تكبير البيانات. تظهر النتائج من التجارب التي أجريت دقة عالية وموثوقية نهجنا للتنبؤ برموز CT Conomed ذات الصلة بنص سريري.
تبين أن قواعد النحوية الخالية من السياق (PCFGS) مع المعلمة العصبية فعالة في تحريض قواعد العبارات غير المعروضة.ومع ذلك، نظرا للتعقيد المركزي المكعبي لتمثيل PCFG وتحليله، فإن النهج السابقة لا يمكن أن توسيع نطاق عدد كبير نسبيا من الرموز (غير اللامعة وال أعمدة).في هذا العمل، نقدم شكل معلمات جديد من PCFGS استنادا إلى تحلل تربوت، والذي يحتوي على تعقيد حسابي ثلاثي في رقم الرمز، وبالتالي يسمح لنا باستخدام عدد أكبر بكثير من الرموز.نحن نستخدم أيضا المعلمة العصبية للنموذج الجديد لتحسين أداء تحليل غير مخالف.نقيم نموذجنا عبر عشرة لغات وإظهار تجريبيا فعالية استخدام المزيد من الرموز.
ActiveAnno هي أداة توضيحية تركز على مهام التوضيحية على مستوى المستندات التي وضعت على حد سواء لإعدادات الصناعة والبحثية.وهي مصممة لتكون أداة للأغراض العامة مع مجموعة واسعة من حالات الاستخدام.ويتميز بيو واجهة مستخدم حديثة واستجابة لإنشاء مشاريع توضيحية ، وإجراء التعليقات التعليقات التوضيحية، والخلافات، وتحليل نتائج التوضيحية.Activeanno تضمين واجهة مستخدم قابلة للتكوين للغاية والتفاعلية.تقوم الأداة أيضا بإدماج API مريح تمكن التكامل في أنظمة برامج أخرى، بما في ذلك API لتكامل تعليم الجهاز.بنيت Activeanno بتصميم قابل للتوسيع وسهولة النشر في الاعتبار، وكل ذلك لتمكين المستخدمين من أداء مهام التوضيحية ذات الكفاءة العالية ونتائج التوضيحية عالية الجودة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا