ترغب بنشر مسار تعليمي؟ اضغط هنا

Rockner: طريقة بسيطة لإنشاء أمثلة خصم لتقييم متانة نماذج التعرف على الكيان المسمى

RockNER: A Simple Method to Create Adversarial Examples for Evaluating the Robustness of Named Entity Recognition Models

316   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

لتدقيق متانة نماذج التعرف على الكيان المسماة (NER)، نقترح روكر، وسيلة بسيطة ولكنها فعالة لإنشاء أمثلة خصومة طبيعية. على وجه التحديد، على مستوى الكيان، نحل محل الكيانات المستهدفة مع كيانات أخرى من نفس الطبقة الدلالية في ويكيداتا؛ على مستوى السياق، نستخدم نماذج اللغة المدربة مسبقا (E.G.، Bert) لتوليد بدائل النصية. معا، تنتج مستويين AT- TACH أمثلة مخدرة طبيعية تؤدي إلى توزيع تحول من البيانات التدريبية التي تم تدريب نماذجنا المستهدفة عليها. نحن نطبق الطريقة المقترحة على مجموعة بيانات Ontonotes وإنشاء معيار جديد يدعى OnTorock لتقييم متانة النماذج NER الحالية عبر بروتوكول تقييم منهجي. تجاربنا وتحليلنا تكشف أنه حتى أفضل نموذج له انخفاض كبير في الأداء، ويبدو أن هذه النماذج تحفز أنماط كيان داخل المجال بدلا من التفكير من السياق. يدرس عملنا أيضا آثار عدد قليل من أساليب تكبير البيانات البسيطة لتحسين متانة نماذج NER.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات لمساعدة الباحثين والممارسين على فهم التحديات التي يفرضونها على مهام NER.نقوم بتحليل مجموعات البيانات لدينا وإجراء تقييم تجريبي واسع النطاق للطرق الحكومية في جميع إعدادات التعلم الإشراف والنقل.أخيرا، نطلق سراح البيانات والرمز والنماذج لإلهام البحوث المستقبلية على الأفريقية NLP.1
يدل العمل الحالي في التعرف على الكيان المسمى (NER) أن تقنيات تكبير البيانات يمكن أن تنتج نماذج أكثر قوة.ومع ذلك، تركز معظم التقنيات الموجودة على زيادة البيانات داخل المجال في سيناريوهات الموارد المنخفضة حيث تكون البيانات المشروحة محدودة للغاية.في هذا العمل، نأخذ هذا الاتجاه البحثي إلى المعاكس ودراسة تكبير بيانات المجال عبر المجال لمهمة NER.نحن نبحث في إمكانية الاستفادة من البيانات من مجالات الموارد العالية من خلال إسقاطها في مجالات الموارد المنخفضة.على وجه التحديد، نقترح بنية عصبية رواية لتحويل تمثيل البيانات من الموارد العالية إلى مجال موارد منخفضة من خلال تعلم الأنماط (مثل الأناقة والضوضاء والاختصارات، وما إلى ذلك) في النص الذي يميزها ومساحة ميزة مشتركةحيث يتماشى كلا المجالين.نقوم بتجربة مجموعات بيانات متنوعة وإظهار أن تحويل البيانات إلى تمثيل مجال الموارد المنخفض يحقق تحسينات كبيرة على استخدام البيانات فقط من مجالات الموارد العالية.
الملخص في هذا العمل، ندرس قدرة نماذج NER لاستخدام المعلومات السياقية عند التنبؤ بنوع كيان غامض.نقدم NRB، اختبار جديد مصمم بعناية لتشخيص تحيز الانتظام من النماذج NER.تشير نتائجنا إلى أن جميع النماذج الحديثة التي اختبرناها إظهار مثل هذا التحيز؛نماذج Be rt Tuned Tunded بشكل كبير تفوقها بشكل كبير (LSTM-CRF) على NRB، على الرغم من وجود أداء قابلة للمقارنة (أحيانا أقل) على المعايير القياسية.لتخفيف هذا التحيز، نقترح طريقة تدريب نموذجية نماذج جديدة تضيف الضوضاء المخدرة القابلة للتعلم إلى بعض الكيانات، وبالتالي فرض النماذج للتركيز بقوة أكبر على الإشارة السياقية، مما يؤدي إلى مكاسب كبيرة على NRB.الجمع بينه مع استراتيجيات تدريبية أخرى، وتعزيز البيانات وتجميد المعلمة، يؤدي إلى مزيد من المكاسب.
نستكشف تطبيق خوارزميات NER-Art-Branch إلى نصوص مركز الاتصال التي تم إنشاؤها ASR. ركز العمل السابق في هذا المجال على استخدام نموذج Bilstm-CRF الذي اعتمد على تضمين الدعوى؛ ومع ذلك، فإن مثل هذا النموذج غير عملي من حيث الكمون واستهلاك الذاكرة. في بيئة ال إنتاج، يتطلب المستخدمون النهائيون نماذج منخفضة الكمون التي يمكن دمجها بسهولة في خطوط الأنابيب الموجودة. ولتحقيق هذه الغاية، نقدم نماذجين مختلفة يمكن استخدامها بناء على متطلبات الكمون والدقة للمستخدم. أولا، نقترح مجموعة من النماذج التي تستخدم نماذج لغة محول الحديثة (روبرتا) لتطوير نظام NER عالية الدقة المدربين على مجموعة مشروحة مخصصة من نصوص مركز الاتصال. بعد ذلك، نستخدم نموذجنا المستند إلى المحولات الأفضل أداء لتسمية عدد كبير من النصوص، والذي نستخدمه للتأهيل بنموذج BILSTM-CRF ويزيد من الاستحقاق على مجموعة بيانات المشروح. نظرا لأن هذا النموذج، في حين ليس دقيقا مثل نظيره القائم على المحولات، فهو فعال للغاية في تحديد العناصر التي تتطلب تحسين قانون الخصوصية. علاوة على ذلك، نقترح مخططا شرحا عاما جديدا ل NER في بيئة مركز الاتصال.
لمعالجة أزمة تلوح في الأفق من التقييم غير المقصود للتعرف على الكيان المسمى، نقترح إرشادات وإدخال SEQSCORE، حزمة البرمجيات لتحسين استنساخ.المبادئ التوجيهية التي نقترحها هي بسيطة للغاية ومركز حول الشفافية فيما يتعلق بكيفية تشفير القطاعات وسجلها.نوضح أن ه على الرغم من البساطة الواضحة لتقييم NER، فإن الاختلافات غير المبلغ عليها في إجراءات التهديف يمكن أن تؤدي إلى تغييرات في الدرجات التي تعد كل من حجمها ملحوظا ومهمة إحصائية.وصفنا Seqcore، الذي يتناول العديد من القضايا التي تسبب فشل النسخ المتماثل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا