ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم من الملصقات الصاخبة لاستخراج المعلومات التركز على الكيان

Learning from Noisy Labels for Entity-Centric Information Extraction

368   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

اعتمدت نهج استخراج المعلومات الحديثة على تدريب النماذج العصبية العميقة. ومع ذلك، يمكن أن تتجاوز هذه النماذج بسهولة الملصقات الصاخبة وتعاني من تدهور الأداء. في حين أنه من المكلف للغاية تصفية الملصقات الصاخبة في موارد تعليمية كبيرة، فإن الدراسات الحديثة تظهر أن مثل هذه الملصقات تتخذ المزيد من الخطوات التدريبية التي سيتم حفظها وتكون نسيانها بشكل أكثر تواترا من الملصقات النظيفة، وبالتالي يتم تحديدها في التدريب. بدافع من هذه الخصائص، نقترح إطارا بسيطا بانتظام بسيطة لاستخراج المعلومات التركز على الكيان، والذي يتكون من العديد من النماذج العصبية مع هياكل متطابقة ولكن تهيئة معلمة مختلفة. يتم تحسين هذه النماذج بشكل مشترك مع الخسائر الخاصة بالمهمة ويتم تنظيمها لتوليد تنبؤات مماثلة تستند إلى فقدان اتفاقية، تمنع التجديدات الخارجية على الملصقات الصاخبة. تظهر تجارب واسعة على نطاق واسع على نطاق واسع ولكن صاخبة لاستخراج المعلومات، Tacred و Conll03، فعالية إطار عملنا. نطلق سرد علاماتنا للمجتمع للبحث في المستقبل.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

من أجل تخفيف الطلب الكبير على مجموعات البيانات المشروح للمهام المختلفة، اعتمدت العديد من مجموعات بيانات معالجة اللغات الطبيعية الحديثة خطوط أنابيب آلية للبيانات القابلة للاستخدام السريع. ومع ذلك، فإن التدريب النموذجي مع مثل هذه البيانات يشكل تحديا لأ ن أهداف التحسين الشائعة ليست قوية لتسمية الضوضاء الناجمة عن عملية توليد التوضيحية. تم اقتراح العديد من الخسائر القوية للضوضاء وتقييمها في المهام في رؤية الكمبيوتر، لكنها تستخدم عموما فرط DataSet-WiseParamter واحد للتحكم في قوة مقاومة الضوضاء. يقترح هذا العمل أطر تدريبية جديدة على سبيل المثال لتغيير فرط بيانات DataSet واحد من مقاومة الضوضاء في مثل هذه الخسائر لتكون مثالا. توقع هؤلاء مثيل - Hyperparameters مقاومة للضوضاء من خلال تنبؤات ذات جودة عالية على مستوى التصنيف، والتي يتم تدريبها مع نماذج التصنيف الرئيسية. تظهر تجارب مجموعات بيانات NLP الصاخبة والفساد أن أطر التدريب على سبيل المثال المقترحة على سبيل المثال تساعد في زيادة متانة الضوضاء التي توفرها هذه الخسائر، وتعزيز استخدام الأطر والأطر الخسائر المرتبطة بها في نماذج NLP المدربة مع بيانات صاخبة.
استخراج المعلومات والمسألة الإجابة على إمكانية إدخال نموذج جديد لكيفية تطبيق تعلم الجهاز على القانون الجنائي. الأساليب الحالية تستخدم عموما البيانات الجدولية للمقاييس التنبؤية. هناك حاجة إلى نهج بديل لمسائل العدالة العادلة، حيث يتم الحكم على الأفراد على أساس كل حالة على حدة، في عملية تنطوي على مناقشة شفهية أو مكتوبة عوامل الحالات. هذه المناقشات فردية، لكنها تعتمد على الحقائق الأساسية. استخراج المعلومات يمكن أن يلعب دورا مهما في تصفح هذه الحقائق، والتي لا تزال مهمة لفهمها. نقوم بتحليل قدرة النماذج غير الخاضعة للإشراف وإشرافها مسبقا على استخراج هذه المعلومات الواقعية من حوار النماذج الحر لسجناء كاليفورنيا الإفراج المشروط. مع استثناءات قليلة، فإن معظم درجات F1 أقل من 0.85. نحن نستخدم هذه الفرصة لتسليط الضوء على بعض الفرص لمزيد من البحث لاستخراج المعلومات والرد على الأسئلة. نحن نشجع التطورات الجديدة في NLP لتمكين التحليل ومراجعة القضايا القانونية التي يتعين القيام بها بطريقة ما بعد الهوك، وليس التنبؤ بها.
النمطية اللغوية هي مجال من اللغويات المعنية بتحليل ومقارنة بين اللغات الطبيعية للعالم بناء على ميزاتها اللغوية المعينة. لهذا الغرض، تاريخيا، اعتمدت المنطقة على استخراج يدوية لقيم الميزات اللغوية من الأوصاف النصية للغات. هذا يجعلها مهمة شاقة وطولها با هظة الثمن وهي ملزمة أيضا بسعة الدماغ البشرية. في هذه الدراسة، نقدم نظام تعليمي عميق لمهمة الاستخراج التلقائي للميزات اللغوية من الأوصاف النصية للغات الطبيعية. أولا، يتم تسجيل أوصاف نصية يدويا مع هياكل خاصة تسمى الإطارات الدلالية. يتم تعلم تلك التعليقات التوضيحية من خلال شبكة عصبية متكررة، والتي تستخدم بعد ذلك لتعليق النص غير المشروح. أخيرا، يتم تحويل التعليقات التوضيحية إلى قيم ميزة اللغوية باستخدام وحدة نمطية قائمة على القاعدة. يتم استخدام Tembeddings Word، المستفادة من نص الأغراض العامة، كمصدر رئيسي للمعرفة من قبل الشبكة العصبية المتكررة. قارنا نظام التعلم العميق المقترح للنظام القائم على نظام التعلم الذي تم الإبلاغ عنه مسبقا لنفس المهمة، ويفوز نظام التعلم العميق من حيث درجات F1 بهامش عادل. من المتوقع أن يكون هذا النظام مساهمة مفيدة للجنة التلقائية لقواعد البيانات النموذجية، والتي يتم تطويرها يدويا.
تتحمل أنظمة Training NLP عادة إمكانية الوصول إلى البيانات المشروحة التي تحتوي على ملصق بشري واحد لكل مثال. بالنظر إلى وضع علامات غير كاملة من الحنجرة والغموض الملازمين من اللغة، فإننا نفترض أن العلامة الفردية ليست كافية لتعلم مجموعة تفسير اللغة. نستك شف مخططات توزيع توضيحية جديدة، وتعيين ملصقات متعددة لكل مثال لمجموعة فرعية صغيرة من أمثلة التدريب. تقديم أمثلة متعددة التوصيل هذه بتكلفة التعليق عدد أقل من الأمثلة التي تجلب مكاسب واضحة حول مهمة مهمة وكتابة الكيان في اللغة الطبيعية، حتى عندما نتدرب أولا مع بيانات تسمية واحدة ثم ضبط أمثلة ملصقات متعددة. تمديد إطار تكبير بيانات مختلط، نقترح خوارزمية التعلم التي يمكن أن تتعلم من الأمثلة التدريبية مع كمية مختلفة من التوضيحية (مع صفر، واحد، أو ملصقات متعددة). تجمع هذه الخوارزمية بكفاءة مع الإشارات من بيانات التدريب غير المتكافئة وتجلب مكاسب إضافية في ميزانية التوضيحية المنخفضة وإعدادات المجال الصليب. معا، تحقق طريقة لدينا مكاسب ثابتة في مهام اثنين، مما يشير إلى أن التسميات التوزيعية بشكل غير متساو بين أمثلة التدريب يمكن أن تكون مفيدة للعديد من مهام NLP.
تم اقتراح التعلم التلوي مؤخرا لتعلم النماذج والخوارزميات التي يمكن أن تعميمها من حفنة من الأمثلة.ومع ذلك، فإن تطبيقات التنبؤ الهيكلية والمهام النصية تشكل تحديات لخوارزميات التعلم التلوي.في هذه الورقة، نحن نطبق اثنين من خوارزميات التعلم التلوي، والشبك ات النموذجية والزواحف الزواحف، إلى عدد قليل من الرصاص التعرف على الكيان (NER)، بما في ذلك طريقة لإدماج نموذج اللغة قبل التدريب والحقول العشوائية الشرطية (CRF).نقترح خطة توليد المهام لتحويل مجموعات بيانات NER الكلاسيكية إلى إعداد القليل من الرصاص، لكل من التدريب والتقييم.باستخدام ثلاث مجموعات بيانات عامة، نظهر أن خوارزميات التعلم التلوي هذه تفوق خطاس بخبراء ذو صقل معقول.بالإضافة إلى ذلك، نقترح مزيجا جديدا من الشبكات النموذجية والزواحف.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا