ترغب بنشر مسار تعليمي؟ اضغط هنا

متى ولماذا فشل نموذج؟إطار كشف خطأ للإنسان في حلقة تحليل المعرفات

When and Why a Model Fails? A Human-in-the-loop Error Detection Framework for Sentiment Analysis

234   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

على الرغم من أن الشبكات العصبية العميقة تعمل على نطاق واسع وأثبت فعاليتها في مهام تحليل المعنويات، إلا أنها تظل تحديا للمطورين النموذجيين لتقييم نماذجهم من أجل التنبؤات الخاطئة التي قد تكون موجودة قبل النشر.بمجرد النشر، يمكن أن يكون من الصعب تحديد الأخطاء الطارئة في وقت التشغيل التنبؤ ومستحيل تتبع مصادرها.لمعالجة هذه الثغرات، في هذه الورقة نقترح إطار اكتشاف خطأ لتحليل المعرفات بناء على ميزات تفسير.نحن نؤدي التحقق من صحة ميزة المستوى العالمي مع تقييم الإنسان في حلقة، تليها تكامل تحليل المساهمة العالمية والمستوى المحلي.تظهر النتائج التجريبية أنه نظرا للتدخل المحدود للإنسان في الحلقة، فإن طريقتنا قادرة على تحديد تنبؤات النموذج الخاطئة على البيانات غير المرئية بدقة عالية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

وضع تطوير الشبكات العصبية وتقنيات الاحتياطية العديد من أنظمة وضع العلامات على مستوى الجملة التي حققت أداء فائقا على المعايير النموذجية. ومع ذلك، فإن موضوع أقل مناقشة نسبيا هو ما إذا كانت معلومات السياق مزيد من المعلومات في أنظمة علامات التسجيل الحالي ة الحالية. على الرغم من أن العديد من الأعمال الموجودة قد حاولت تحويل أنظمة وضع العلامات من مستوى الجملة إلى مستوى المستند، لا يوجد أي استنتاج بتوافق الآراء بشأن متى ولماذا يعمل، الذي يحد من تطبيق نهج السياق الأكبر في مهام وضع العلامات. في هذه الورقة، بدلا من متابعة نظام علامات حديثة من خلال الاستكشاف المعماري، نركز على التحقيق عندما ولماذا التدريب في السياق الأكبر، كاستراتيجية عامة، يمكن أن تعمل. تحقيقا لهذه الغاية، نقوم بإجراء دراسة مقارنة شاملة عن أربعة مجمعين مقترحين لجمع معلومات السياق وتقديم طريقة تقييم بمساعدة السمة لتفسير التحسن الذي يحدده التدريب السياق الأكبر. تجريفيا، أنشأنا اختبارا بناء على أربع مهام وضع العلامات ومجموعات البيانات الثلاثين. نأمل أن تكون ملاحظاتنا الأولية يمكن أن تعميق فهم التدريب السياق الأكبر والتنوير يعمل المزيد من المتابعة على استخدام المعلومات السياقية.
مجردة المقاييس المستخدمة بشكل أساسي لتقييم نماذج توليد اللغة الطبيعية (NLG)، مثل Bleu أو Meteor، تفشل في تقديم معلومات حول تأثير العوامل اللغوية الأداء. التركيز على تحقيق السطح (SR)، ومهمة تحويل شجرة تبعية غير مرتبة في جملة رائعة، نقترح إطارا لتحليل الأخطاء الذي يسمح بتحديد ميزات الإدخال تؤثر على نتائج النماذج. يتكون هذا الإطار من عنصرين رئيسيين: (1) تحليلات الارتباط بين مجموعة واسعة من المقاييس النحوية ومقاييس الأداء القياسية و (2) مجموعة من التقنيات لتحديد البنيات النحوية تلقائيا والتي غالبا ما تحدث مع درجات أداء منخفضة. نوضح مزايا إطار الإطار الخاص بنا عن طريق إجراء تحليل الأخطاء في نتائج 174 يدير النظام المقدم إلى المهام المشتركة ل SR متعددة اللغات؛ نظهر أن دقة حافة التبعية ترتبط مع المقاييس التلقائية وبالتالي توفير أساس أكثر قابلية للتفسير للتقييم؛ ونقترح الطرق التي يمكن بها استخدام إطار عملنا لتحسين النماذج والبيانات. يتوفر الإطار في شكل مجموعة أدوات يمكن استخدامها على حد سواء من خلال منظمي الحملة لتوفير ملاحظات مفصلة، ​​من التفسير اللغوي على حالة الفن في مجال الإرسال المتعدد اللغات، والباحثين الفرديين لتحسين النماذج ومجموعات البيانات
تحقق هذه الورقة في كيفية تصحيح أخطاء النص الصينية مع أنواع من الأحرف الخاطئة والمفقودة والمتغمة، وهي شائعة للمتحدثين الأصليين الصينيين.يمكن لمعظم النماذج الموجودة على الإطار الصحيح على الكشف عن تصحيح الأحرف الخاطئة، ولكن لا يمكن التعامل مع الأحرف الم فقودة أو الزائدة بسبب التناقض بين المدخلات والمخرجات النموذجية.على الرغم من أن أساليب العلامات المستندة إلى SEQ2SEQ أو التسلسل تقدم حلولا لأنواع الخطأ الثلاثة وحققت نتائج جيدة نسبيا في سياق اللغة الإنجليزية، فإنها لا تؤدي بشكل جيد في السياق الصيني وفقا تجاربنا.في عملنا، نقترح إطارا جديدا للكشف عن المحاذاة على المكتشفة التي يمكن أن تعالج كل من المواقف المحاذاة وغير المحاذاة ويمكن أن تكون بمثابة نموذج ابدأ بارد عند عدم توفر بيانات التعليق التوضيحي.تظهر النتائج التجريبية على ثلاث مجموعات بيانات أن طريقتنا فعالة وتحقق أداء أفضل من أحدث النماذج المنشورة.
تتكون مهمة تحليل المعنويات المستندة إلى جانب الجسيم من ثلاث مجموعات فرعية نموذجية: استخراج الأجل في الجانب، استخراج الأجل رأي، وتصنيف قطبية المعنويات.عادة ما يتم تنفيذ هذه المهن الفرعية الثلاثة بشكل مشترك لتوفير الموارد وتقليل انتشار الخطأ في خط الأن ابيب.ومع ذلك، فإن معظم النماذج المشتركة الحالية تركز فقط على فوائد تقاسم التشفير بين المهن الفرعية ولكن تجاهل الفرق.لذلك، نقترح نموذجا مشتركا ABSA، والتي لا تتمتع فقط بمزايا تقاسم التشفير ولكنها تركز أيضا على الفرق لتحسين فعالية النموذج.بالتفصيل، نقدم تصميما مزدوجا للتشفير، حيث يركز تشفير الزوج بشكل خاص على تصنيف زوج الرأي في الجانب المرشح، والتشمس الأصلي يحتفظ بالاهتمام على وضع العلامات التسلسل.تظهر النتائج التجريبية أن طرازنا المقترح يظهر متانة ويتفوق بشكل كبير على الحالة السابقة من بين الفن في أربعة مجموعات بيانات معيار.
تشكل بروز أجهزة اللغة التصويرية، مثل السخرية والمفارقة، تحديات خطيرة لتحليل المعنويات العربية (SA).في حين أن أعمال البحث السابقة تعامل معها واكتشاف السخرية بشكل منفصل، تقدم هذه الورقة نموذجا للتعلم العميق المتعدد للمكملات المتعددة الإنهائية (MTL)، مم ا يتيح تفاعل المعرفة بين المهامتين.تتكون بنية MTL Model الخاصة بنا من تمثيل ترميز ثنائي الاتجاه من طراز المحولات (Bert)، وحدة تفاعل انتباه متعددة المهام، واثنين من مصنفين المهامين.تظهر النتائج الإجمالية التي تم الحصول عليها أن نموذجنا المقترح تتفوق على نظرائه المهمة الواحدة و MTL على كل من المهاجمة والشعور الفرعي للكشف عن المعنويات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا