ترغب بنشر مسار تعليمي؟ اضغط هنا

فهم نموذج متواضع للنصوص الناتجة عن المستخدم

Understanding Model Robustness to User-generated Noisy Texts

482   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

من المعروف أن حساسية النماذج العميقة العصبية لضوضاء الإدخال مشكلة صعبة.في NLP، يتدهور أداء النموذج غالبا مع الضوضاء التي تحدث بشكل طبيعي، مثل الأخطاء الإملائية.لتخفيف هذه المشكلة، قد تستفيد النماذج البيانات الوكيل بشكل مصطنع.ومع ذلك، تم تحديد كمية ونوع الضوضاء التي تم إنشاؤها حتى الآن بشكل تعسفي.لذلك نقترح نموذج الأخطاء الإحصائية من كورسا - تصحيح الأخطاء النحوية.نقدم تقييم شامل للعديد من متواك أنظمة NLP الحديثة لغات متعددة، مع المهام بما في ذلك التحليل المورفو النحوي، التعرف على الكيان المسمى، الترجمة الآلية العصبية، مجموعة فرعية من مرجع الغراء والفهم القراءة.نحن نقارن أيضا مناهضين لمعالجة انخفاض الأداء: أ) تدريب نماذج NLP مع البيانات الوكيل التي تم إنشاؤها بواسطة إطار عملائنا؛و ب) تقليل ضوضاء الإدخال بالنظام الخارجي لتصحيح اللغة الطبيعية.يتم إصدار الرمز في https://github.com/ufal/kazitext.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تشمل النصوص التي تم إنشاؤها من قبل المستخدم أنواعا مختلفة من الخصائص الأسلوبية، أو الضوضاء.لا تتم معالجة مثل هذه النصوص بشكل صحيح من خلال محلل مورفيم الحاليين أو نماذج اللغة القائمة على النصوص الرسمية مثل الموسوعات أو المقالات الإخبارية.في هذه الورقة ، نقترح أذكيلة بسيطة مناسبة مورفولوجية (K-MT) التي يمكن أن تعالج بشكل أفضل الأسماء المعدنية والتعاوض واللغة العامية الإنترنت من بين أنواع أخرى من الضوضاء في النصوص التي تم إنشاؤها من قبل المستخدمين الكورية.لقد اختبرنا خصومنا من خلال إجراء مهام التصنيف في مراجعات الأفلام الكورية التي أنشأها المستخدم ومجموعات بيانات الكلام الكراهية، ومجموعات بيانات التعرف على الكيان الكورية.من خلال اختباراتنا، وجدنا أن K-MT مناسبا بشكل أفضل لمعالجة علاوات الإنترنت والأسماء المناسبة والتعاملات المعدنية، مقارنة بمحلل مورفيم ومزمله لوائح التحميم على مستوى الطابع.
مع الاستخدام المتزايد لأحكام الخوارزميات المدفوعة بالجهاز، من الأهمية بمكان تطوير النماذج القوية في المدخلات المتطورة أو التلاعب بها.نقترح تحليلا واسع النطاق من المتانة النموذجي ضد التباين اللغوي في تحديد الكشف الأخبار الخادع، وهي مهمة مهمة في سياق ا لمعلومات الخاطئة المنتشرة عبر الإنترنت.نحن نفكر في مهام التنبؤ ومقارنة ثلاثة من المدينات الحديثة لتسليط الضوء على الاتجاهات المتسقة في الأداء النموذجي، وتظليل الثقة العالي، والإخفاقات عالية التأثير.من خلال قياس فعالية استراتيجيات الدفاع المشددي وتقييم الحساسية النموذجية للهجمات الخصومة باستخدام نص غير مضطرب للشخصية، نجد أن الطابع أو النماذج المختلطة هي الدفاعات الأكثر فعالية وأن تكتيكات الهجوم القائم على الاضطرابات الأكثر نجاحا.
عندما ينتشر خطاب الكراهية على وسائل التواصل الاجتماعي والمجتمعات عبر الإنترنت، يستمر البحث في العمل على الكشف التلقائي.في الآونة الأخيرة، كان أداء الاعتراف يتزايد بفضل التقدم في التعلم العميق وإدماج ميزات المستخدم.يحقق هذا العمل في الآثار التي يمكن أ ن تحتوي هذه الميزات على نموذج للكشف.على عكس البحث السابق، نظهر أن مقارنة الأداء البسيطة لا تعرض التأثير الكامل لضمان معلومات السياق والمستخدمية.من خلال الاستفادة من تقنيات الشرط، نعرض (1) يلعب ميزات المستخدم دورا في قرار النموذج و (2) كيف تؤثر على مساحة الميزة المستفادة من النموذج.إلى جانب الكشف عن ذلك --- وتوضيح أيضا لماذا --- ميزات المستخدم هي سبب مكاسب الأداء، نوضح كيف يمكن دمج هذه التقنيات إلى فهم النموذج بشكل أفضل والكشف عن التحيز غير المقصود.
أظهرت وكلاء الحوار القرملي العصبي القدرة المتزايدة على إجراء محادثات Chitchat قصيرة، عند تقييمها من قبل CrowDWorkers في الإعدادات التي تسيطر عليها. ومع ذلك، فإن أدائهم في نشر الحياة الحقيقية - التحدث إلى المستخدمين الدوافع الجوهرية في البيئات الصاخبة - أقل استكشافا جيدا. في هذه الورقة، نقوم بإجراء دراسة حالة مفصلة لنموذج توليدي عصبي منتشر كجزء من الكاردينال الغربي، جائزة اليكسا جائزة. نجد أن كلمات المستخدم غير واضحة هي مصدر رئيسي للأخطاء الإنتاجية مثل تجاهل، الهلوسة، إلغاء التكرار. ومع ذلك، حتى في سياقات لا لبس فيها، يقوم النموذج بشكل متكرر بإجراء أخطاء في التفكير. على الرغم من أن المستخدمين يعبرون عن عدم الرضا في الارتباط مع هذه الأخطاء، تعتمد أنواع عدم الاستياء بشكل معيادة (مثل إفرازات الاعتراضات والخصوصية) على عوامل إضافية - مثل المواقف الشخصية للمستخدم، والاستلاك غير المعتاد مسبق في المحادثة. أخيرا، نظهر أن كلمات المستخدم غير الراضية يمكن استخدامها كإشارة تعليمية شبه إشراف لتحسين نظام الحوار. نحن ندرب نموذجا للتنبؤ بعدم التشغيل التالي، وتظهر من خلال التقييم البشري كدالة ترتيب، فهو يختار كلام أعلى من الجودة الناتجة.
تحذير: تحتوي هذه المقالة على محتويات قد تسيء إلى القراء. الاستراتيجيات التي تنشر ضجيجا متعمدا في نص عند نشرها شائعة في فضاء الإنترنت، وأحيانا تهدف إلى السماح لبعض أفراد المجتمع فقط بفهم الدلالات الحقيقية. في هذه الورقة، نستكشف الغرض من هذه الإجراءا ت عن طريق تصنيفها إلى حيل و ميمز وفلاتر والأكواد، وتنظيم الاستراتيجيات اللغوية المستخدمة في كل غرض. من خلال ذلك، نحدد أن يتم إجراء هذه الاستراتيجيات من قبل مؤلفين لأغراض متعددة، فيما يتعلق بوجود أصحاب المصلحة مثل الأقران والآخرين.ونحلل أخيرا كيفية ظهور هذه الاستراتيجيات بشكل مختلف في كل ظرف من الظروف، إلى جانب الأمثلة المصاحبة للتصنيف الموحد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا