ترغب بنشر مسار تعليمي؟ اضغط هنا

تعلم المعرفة التعلم التعلم لتصنيف النص المنخفض

Knowledge-Aware Meta-learning for Low-Resource Text Classification

368   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حقق التعلم التلوي نجاحا كبيرا في الاستفادة من المعرفة المستفادة التاريخية لتسهيل عملية التعلم المهمة الجديدة.ومع ذلك، فإن تعلم معرفة المهام التاريخية، التي اعتمدتها خوارزميات التعلم التلوي الحالية، قد لا تعميم بشكل جيد للاختبار المهام عندما لا تكون مدعومة جيدا بمهام التدريب.تدرس هذه الورقة مشكلة تصنيف النص المنخفض للموارد ويزيد الفجوة بين مهام اختبار التوطين والاختبار التلوي من خلال الاستفادة من قواعد المعرفة الخارجية.على وجه التحديد، نقترح KGML لإدخال تمثيل إضافي لكل جملة مستفادة من الرسم البياني المعرفي الخاص بالحكم الجملة المستخرجة.توضح التجارب الواسعة على ثلاثة مجموعات بيانات فعالية KGML تحت كلا من إعدادات التكيف والإشراف غير المدفوع.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

مزيج من التمثيلات المتعددة اللغات المدربة مسبقا وتعلم النقل عبر اللغات هو أحد أكثر الطرق فعالية لبناء أنظمة NLP الوظيفية لغات الموارد المنخفضة. ومع ذلك، بالنسبة لغات الموارد المنخفضة للغاية دون نطاق واسع النطاق لأحادية النطاق للتدريب المسبق أو البيان ات المشروحة المكافحة للضبط بشكل جيد، لا يزال التعلم التحويل مهمة مفهومة وصعبة. علاوة على ذلك، يوضح العمل الحديث أن تمثيلات متعددة اللغات هي بفك الشفقة على اللغات، مما جلب تحديات إضافية للتحويل إلى لغات الموارد المنخفضة للغاية. في هذه الورقة، نقترح metaxl، إطار التعلم التعلم التعلم الذي يتعلم تحويل التمثيلات بحكمة من اللغات المساعدة إلى هدف واحد ويجلب مساحات تمثيلها أقرب إلى النقل الفعال. تجارب مكثفة على لغات الموارد المنخفضة في العالم الحقيقي - دون الوصول إلى كورسا أحادية واسعة النطاق أو كميات كبيرة من البيانات المسمى - للمهام مثل تحليل المشاعر المتبادلة والاعتراف كيان المسمى إظهار فعالية نهجنا. رمز Metaxl متوفر علنا ​​في github.com/microsoft/metaxl.
تعتمد معالجة اللغة الطبيعية (NLP) بشكل متزايد على الأنظمة العامة المناسبة التي تحتاج إلى التعامل مع العديد من الظواهر اللغوية المختلفة والفروق الدقيقة. على سبيل المثال، يتعين على نظام الاستدلال باللغة الطبيعية (NLI) أن يتعرف على المعنويات، والتعامل م ع الأرقام، وإجراء حلول، وما إلى ذلك. لا تزال حلولنا للمشاكل المعقدة بعيدة عن الكمال، لذلك من المهم إنشاء أنظمة يمكن أن تتعلم تصحيح الأخطاء بسرعة، تدريجيا، ومع القليل من البيانات التدريبية. في هذا العمل، نقترح مهمة التعلم القليلة المستمرة (CFL)، حيث يتم الطعن للنظام بظاهرة صعبة وطلب منهم أن يتعلموا تصحيح الأخطاء مع أمثلة تدريبية فقط (10 إلى 15). تحقيقا لهذه الغاية، نقوم أولا بإنشاء معايير بناء على البيانات المشروحة مسبقا: DetaSets NLI (Anli and Snli) ومجموعات بيانات تحليل المشاعر (IMDB). بعد ذلك، نقدم خطوط أساس مختلفة من النماذج المتنوعة (على سبيل المثال، أخطاقات علم الذاكرة والشبكات النموذجية) ومقارنتها في التعلم القليل من الطلقات والكم من إعدادات التعلم القليلة المستمرة. إن مساهماتنا هي في إنشاء بروتوكول جناح وتقييم معيار لاستمرار التعلم القليل من الرصاص حول مهام تصنيف النص، وعمل العديد من الملاحظات المثيرة للاهتمام حول سلوك الأساليب القائمة على التشابه. نأمل أن يعمل عملنا كنقطة انطلاق مفيدة للعمل في المستقبل على هذا الموضوع الهام.
تصنيف النص القصير هو مهمة أساسية في معالجة اللغة الطبيعية.من الصعب بسبب عدم وجود معلومات السياق والبيانات المسمى في الممارسة العملية.في هذه الورقة، نقترح طريقة جديدة تسمى SHINE، والتي تعتمد على الشبكة العصبية الرسم البيانية (GNN)، لتصنيف النص القصير. أولا، نقوم بنمذت مجموعة بيانات النص القصيرة كشركة بيانية غير متجانسة هرمية تتكون من رسومات مكونة على مستوى Word والتي تقدم معلومات أكثر دلالة ونقصية.بعد ذلك، نتعلم ديناميكيا رسم بياني مستند قصير يسهل نشر الملصقات الفعالة بين النصوص القصيرة المشابهات.وبالتالي، فإن المقارنة مع الأساليب القائمة على GNN القائمة، والتألق يمكن أن يستغل أفضل التفاعلات بين العقد من نفس الأنواع والقبض على أوجه التشابه بين النصوص القصيرة.تظهر تجارب واسعة النطاق على مختلف مجموعات البيانات القصيرة القصيرة المعجمية أن التألق يتفوق باستمرار على الأساليب الحديثة، خاصة مع عدد أقل من الملصقات.
يمكن للبشر التمييز بين فئات جديدة بكفاءة للغاية مع عدد قليل من الأمثلة، إلى حد كبير بسبب حقيقة أن البشر يمكنهم الاستفادة من المعرفة التي تم الحصول عليها من المهام ذات الصلة.ومع ذلك، يميل نموذج تصنيف النص في التعلم العميق إلى الكفاح لتحقيق أداء مرض عن دما تكون البيانات المسمى نادرة.مستوحاة من الذكاء البشري، نقترح تقديم المعرفة الخارجية إلى سلطة قليلة التعلم لتقليد المعرفة الإنسانية.يتم التحقيق في شبكة مولدات المعلمة الرواية بهذا الغاية، والتي تتمكن من استخدام المعرفة الخارجية لتوليد مقاييس مختلفة لمهام مختلفة.المسلحة مع هذه الشبكة، يمكن لمهام مماثلة استخدام مقاييس مماثلة في حين تستخدم المهام المختلفة مقاييس مختلفة.من خلال التجارب، نوضح أن أسلوبنا تتفوق على نماذج تصنيف النص القليلة لقلة سوتا.
يهدف التعلم التعريف إلى تحسين قدرات النموذج على تعميم المهام والمجالات الجديدة. منعت عدم وجود طريقة فعالة للبيانات لإنشاء مهام التدريب META قد منع تطبيق التعلم التلوي لسيناريوهات التعلم القليلة في العالم الحقيقي. اقترحت الدراسات الحديثة مناهج غير مده ونة لإنشاء مهام تدريبية من البيانات غير المستدامة مجانا، على سبيل المثال، طريقة SMLMT (BANSAL et al.، 2020a) تقوم بمهام تصنيف متعددة الطبقات غير المعروضة من النص غير المستعود من خلال إخفاء الكلمات بشكل عشوائي في الجملة و دع Meta Learner يختار أي كلمة لملء الفراغ. تقترح هذه الدراسة نهجا تعليميا شبه إشرافه يشتمل على كل من قوة تمثيل النماذج اللغوية المدربة مسبقا مسبقا وقدرة التعميم على الشبكات النموذجية المعززة من قبل SMLMT. يتجنب نهج التدريب المنوي شبه المشرف على الشبكات النموذجية الجائرة على عدد صغير من أمثلة التدريب المسمى وسرعة يتعلم التمثيل الخاص بمهام المهام عبر المجال فقط من بعض الأمثلة الداعمة. من خلال دمج SMLMT مع الشبكات النموذجية، تعميم المتعلم التعريف بشكل أفضل من المجالات غير المرئية وتحقق دقة أعلى على الأمثلة خارج النطاق دون رفع ما قبل التدريب. نلاحظ تحسنا كبيرا في تعميم القليل من اللقطات بعد التدريب فقط على عدد قليل من العصر على مهام تصنيف النوايا التي تم تقييمها في إعداد متعدد المجالات.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا