ترغب بنشر مسار تعليمي؟ اضغط هنا

مقياس الصناعة التعليم شبه الإشراف على فهم اللغة الطبيعية

Industry Scale Semi-Supervised Learning for Natural Language Understanding

273   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تقدم هذه الورقة خط أنابيب التعلم شبه الإشرافه (SSL) على أساس إطار المعلم الطالب، الذي يزداد ملايين الأمثلة غير المستمرة لتحسين مهام فهم اللغة الطبيعية (NLU). نحن نبحث في سؤالين يتعلق باستخدام البيانات غير المسبقة في سياق الإنتاج SSL: 1) كيفية تحديد عينات من تجمع بيانات ضخمة غير مسفوقة مفيدة لتدريب SSL، و 2) كيف تؤثر البيانات المحددة على أداء حالة مختلفة من بين تقنيات SSL-Art. نقارن أربعة تقنيات SSL المستخدمة على نطاق واسع، والتسمية الزائفة (PL)، وقطاع المعرفة (KD)، والتدريب الخصم الافتراضي (VAT) والتدريب عبر الرؤية (CVT) جنبا إلى جنب مع طريقتين اختيار البيانات بما في ذلك الاختيار القائم على اللجنة وتحسين الأسفل اختيار مقرها. نحن ندرس مزيدا من فوائد وعيوب هذه التقنيات عند تطبيقها على تصنيف تكاليف النية (IC) ومهام التعرف على الكيان المسماة (NER)، وتوفير المبادئ التوجيهية التي تحدد عندما تكون كل من هذه الطرق مفيدة لتحسين أنظمة NLU كبيرة الحجم.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

فهم اللغة الطبيعية (NLU) هو عنصر ثابت داخل نظام مساعد AI أو مساعد رقمي، وهو مسؤول عن إنتاج فهم دلالي لطلب المستخدم.نقترح مقاربة قابلة للتطوير والتلقائي لتحسين NLU في نظام AI محادثة على نطاق واسع من خلال الاستفادة من تعليقات المستخدم الضمنية، مع وجود نظرة ثاقبة لبيانات تفاعل المستخدم وسياق الحوار معلومات غنية بما يمكن استنتاج رضا المستخدم ونيةه.على وجه الخصوص، نقترح إطارا أمرا مدرجا لمنح بيانات الإشراف الجديدة لتحسين NLU من حركة الإنتاج الحي.مع مجموعة واسعة من التجارب، نعرض نتائج تطبيق الإطار وتحسين NLU لنظام إنتاج واسع النطاق عبر 10 مجالات.
في هذه الورقة، نقترح تعريف وتعريفي من أنواع مختلفة من المحتوى النصي غير القياسي - يشار إليها عموما باسم الضوضاء "- في معالجة اللغة الطبيعية (NLP). في حين أن معالجة البيانات المسبقة هي بلا شك مهم بلا شك في NLP، خاصة عند التعامل مع المحتوى الذي تم إنشا ؤه من قبل المستخدم، فإن فهم أوسع لمصادر الضوضاء المختلفة وكيفية التعامل معها هو جانب تم إهماله إلى حد كبير. نحن نقدم قائمة شاملة للمصادر المحتملة للضوضاء، وتصنيفها ووصفها، وتظهر تأثير مجموعة فرعية من استراتيجيات المعالجة القياسية المعدلة على مهام مختلفة. هدفنا الرئيسي هو زيادة الوعي بالمحتوى غير المعتاد - والذي لا ينبغي اعتباره دائما ضوضاء "- والحاجة إلى المعالجة المسبقة التي تعتمد على المهام. هذا بديل إلى بطانية، مثل الحلول الشاملة التي تطبقها الباحثون بشكل عام من خلال "خطوط أنابيب معالجة مسبقا مسبقا". النية هي لهذا التصنيف بمثابة نقطة مرجعية لدعم الباحثين NLP في وضع الاستراتيجيات لتنظيف أو تطبيع أو احتضان المحتوى غير المعتاد.
التقييم للعديد من مهام فهم اللغة الطبيعية (NLU) مكسورة: النتيجة أنظمة غير موثوقة ومنحمة للغاية على المعايير القياسية التي توجد مساحة صغيرة للباحثين الذين يقومون بتطوير أنظمة أفضل لإظهار التحسينات الخاصة بهم.إن الاتجاه الأخير للتخلي عن معايير IID لصال ح مجموعات الاختبارات التي تم إنشاؤها المشدة، خارج التوزيع تضمن أن النماذج الحالية ستؤدي بشكل سيء، ولكن في نهاية المطاف تحجب القدرات التي نريد قياس معاييرنا.في ورقة الموقف هذه، نضع أربعة معايير نجد أن معايير NLU يجب أن تلبي.نجرب أن معظم المعايير الحالية تفشل في هذه المعايير، وأن جمع البيانات العديفية لا يعالج سلبيا أسباب هذه الإخفاقات.بدلا من ذلك، سيتطلب استعادة النظام الإيكولوجي للتقييم الصحي تقدما ملحوظا في تصميم مجموعات البيانات القياسية، والموثوقية التي يتم عرضها معها، وحجمها، والطرق التي تتعاملون مع التحيز الاجتماعي.
غالبا ما يتم تحديد موكب النموذج إلى التحيز من خلال التعميم على مجموعات البيانات الخارجية المصممة بعناية.أساليب الدخل الحديثة في فهم اللغة الطبيعية (NLU) تحسين الأداء على مجموعات البيانات هذه عن طريق الضغط على النماذج في تحقيق تنبؤات غير متحيزة.الافتر اض الأساسي وراء هذه الأساليب هو أن هذا يؤدي أيضا إلى اكتشاف ميزات أكثر قوة في التمثيلات الداخلية للنموذج.نقترح إطارا عاما يستند إلى التحقيق العامة يسمح بتفسير ما بعد الهوك للتحيزات في طرازات اللغة، واستخدام نهج نظرية معلومات لقياس قابلية استخراج بعض التحيزات من تمثيلات النموذج.نقوم بتجربة العديد من مجموعات بيانات NLU والتحيزات المعروفة، وتظهر ذلك، مضادا بشكل حدسي، كلما دفع نموذج لغة أكثر نحو نظام ديبي، فإن التحيز الأكثر ترميزا بالفعل في تمثيلاته الداخلية.
اكتسبت النماذج متعددة اللغات، مثل M-Bert و XLM-R، شعبية متزايدة، بسبب قدرات التعلم الصفرية عبر اللغات. ومع ذلك، فإن قدرة تعميمها لا تزال غير متسقة للغات المتنوعة من النطبية وعبر معايير مختلفة. في الآونة الأخيرة، حصل التعلم التعريفي على الاهتمام باعتب اره تقنية واعدة لتعزيز تعلم النقل بموجب سيناريوهات الموارد المنخفضة: خاصة للتحويل عبر اللغات في فهم اللغة الطبيعية (NLU). في هذا العمل، نقترح X-Metra-ADA، ونهج تكيف التعلم التعبيري عبر Ling-Lingual من أجل NLU. نهجنا تتكيف مع MAML، نهج التعلم التلوي المستند إلى التحسين، لتعلم التكيف مع لغات جديدة. نقوم بتقييم إطار عملنا على نطاق واسع على اثنين من مهام NLU الصينية الصعبة: مربع حوار موجه نحو المهلة متعددة اللغات والإجابة على الأسئلة المتنوعة من الناحية النموذجية. نظرا لأن نهجنا يتفوق على ضجة ساذجة دقيقة، حيث وصل إلى أداء تنافسي على كلا المهام لمعظم اللغات. يكشف تحليلنا أن X-Metra-ADA يمكنه الاستفادة من البيانات المحدودة للتكيف بشكل أسرع.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا