ترغب بنشر مسار تعليمي؟ اضغط هنا

تحت إشراف جزئيا على الكيان التعرف على فقدان نسبة الكيان المتوقعة

Partially Supervised Named Entity Recognition via the Expected Entity Ratio Loss

397   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الملخص ندرس التعلم التعرف على الكيان المسمى في وجود التعليقات التوضيحية في الكيان المفقود.نحن نقترب من هذا الإعداد باسم وضع علامات مع المتغيرات الكامنة واقتراح خسارة جديدة، ونسبة الكيان المتوقعة، لتعلم النماذج بحضور العلامات المفقودة بشكل منهجي.نظرا لأن نهجنا صوتي من الناحية النظرية ومفيدة تجريبيا.تجريفيا، نجد أنه يجتمع أو يتجاوز أداء خطوط أساس قوية وحديثة من بين الفنون عبر مجموعة متنوعة من اللغات والسيناريوهات التوضيحية ومبالغ البيانات المسمى.على وجه الخصوص، نجد أنه يتفوق بشكل كبير على الطرق السابقة من الأساليب السابقة من Mayhew et al.(2019) ولي وآخرون.(2021) بواسطة +12.7 و +2.3 F1 النتيجة في بيئة صعبة مع فقط 1000 عرض توضيحية متحيزة، بلغ متوسطها عبر 7 مجموعات من مجموعات البيانات.نظهر أيضا أنه عندما يقترن نهجنا، فإن مخطط التعليق التوضيحي رواية متفوقة تفوق التعليق التوضيحي الشامل لميزانيات التوضيحية المتواضعة



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

حققت أنظمة ربط الكيان (EL) نتائج مثيرة للإعجاب على المعايير القياسية بشكل أساسي بفضل التمثيلات السياقية المقدمة من نماذج اللغة المحددة مسبقا.ومع ذلك، لا تزال هذه الأنظمة تتطلب كميات ضخمة من البيانات - ملايين الأمثلة المسمى - في أفضل حالاتهم، مع أوقات تدريبية تتجاوز غالبا عدة أيام، خاصة عندما تتوفر موارد حسابية محدودة.في هذه الورقة، ننظر إلى كيفية استغلال التعرف على الكيان المسمى (ner) لتضييق الفجوة بين أنظمة EL المدربين على كميات عالية ومنخفضة من البيانات المسمى.وبشكل أكثر تحديدا، نوضح كيف وإلى أي مدى يمكن للنظام أن يستفيد نظام EL من NER لتعزيز تمثيلات كيانه، وتحسين اختيار المرشح، وحدد عينات سلبية أكثر فعالية وفرض قيود صلبة وناعمة على كيانات الإخراج.نطلق سراح البرامج ونقاط التفتيش النموذجية - في https://github.com/babelscape/ner4el.
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات لمساعدة الباحثين والممارسين على فهم التحديات التي يفرضونها على مهام NER.نقوم بتحليل مجموعات البيانات لدينا وإجراء تقييم تجريبي واسع النطاق للطرق الحكومية في جميع إعدادات التعلم الإشراف والنقل.أخيرا، نطلق سراح البيانات والرمز والنماذج لإلهام البحوث المستقبلية على الأفريقية NLP.1
يعد التعرف على الكيان المسمى مهمة أساسية في معالجة اللغة الطبيعية للكشف عن الكيانات وتصنيفها إلى فئات محددة سلفا. كيان هو كلمة ذات معنى، أو عبارة تشير إلى الأسماء المناسبة. تلعب الكيانات المسماة دورا مهما في مهام NLP المختلفة مثل استخراج المعلومات، و الرد على الأسئلة والترجمة الآلية. في الترجمة الآلية، غالبا ما تسبب الكيانات المسماة فشل الترجمة بغض النظر عن السياق المحلي، مما يؤثر على جودة الإخراج للترجمة. التعليق الكيانات المسماة هي عملية تستغرق وقتا طويلا ومكلفة خاصة لغات الموارد المنخفضة. أحد الحلول لهذه المشكلة هو استخدام طرق محاذاة Word في شركة موازية ثنائية اللغة تم تفاحها جانب واحد فقط. الهدف هو استخراج الكيانات المسماة في اللغة المستهدفة باستخدام Corpus المشرف من لغة المصدر. في هذه الورقة، قارنا أداء اثنين من أساليب المحاذاة، واللبسائع التناظرية المتناثرة-Diag-Final-Final وتقاطع التناظر، لاستغلال الإسقاط التوضيحي للبرتغالية البرتغالية الإنجليزية البرازيلية للكشف عن الكيانات المسماة في البرتغالية البرازيلية. يتم استخدام نموذج NER الذي تم تدريبه على البيانات المشروحة المستخرجة من أساليب المحاذاة، لتقييم أداء المحاذاين. تظهر النتائج التجريبية أن التعايدة بين التقاطعات قادرة على تحقيق درجات أداء فائقة مقارنة مع النمو - النهائي والنهائي والمشي في البرتغالية البرازيلية.
في الوقت الحاضر، حقق التعرف على الكيان المسمى (NER) نتائج ممتازة على الشركة القياسية.ومع ذلك، فإن المشكلات الكبيرة تنشأ مع الحاجة إلى تطبيق في مجال معين، لأنه يتطلب جدارا الشكل المشروح مع مجموعة علامات NE مكيفة.هذا واضح بشكل خاص في مجال معالجة المستن دات التاريخية.يتكون الهدف الرئيسي لهذه الورقة من اقتراح وتقييم العديد من طرق تعلم النقل لزيادة درجة النقر التاريخي التشيكي.ندرس العديد من مصادر المعلومات، ونحن نستخدم شباكين عصبيين للنمذجة والاعتراف.نحن نوظف سورانيا لتقييم أساليب التعلم الخاصة بنا، وهي Czech Named Entity Corpus و Czech Historical Enty Enty Engyity Corpus.نظهر أن تمثيل بيرت بضبط جيد وفقط المصنف البسيط المدرب على اتحاد كورسيا يحقق نتائج ممتازة.
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا العمل، نأخذ هذا الاتجاه البحثي إلى المعاكس ودراسة تكبير بيانات المجال عبر المجال لمهمة NER.نحن نبحث في إمكانية الاستفادة من البيانات من مجالات الموارد العالية من خلال إسقاطها في مجالات الموارد المنخفضة.على وجه التحديد، نقترح بنية عصبية رواية لتحويل تمثيل البيانات من الموارد العالية إلى مجال موارد منخفضة من خلال تعلم الأنماط (مثل الأناقة والضوضاء والاختصارات، وما إلى ذلك) في النص الذي يميزها ومساحة ميزة مشتركةحيث يتماشى كلا المجالين.نقوم بتجربة مجموعات بيانات متنوعة وإظهار أن تحويل البيانات إلى تمثيل مجال الموارد المنخفض يحقق تحسينات كبيرة على استخدام البيانات فقط من مجالات الموارد العالية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا