ترغب بنشر مسار تعليمي؟ اضغط هنا

تكييف بيرت للتعلم المستمر لسلسلة من مهام تصنيف معنويات الجانب

Adapting BERT for Continual Learning of a Sequence of Aspect Sentiment Classification Tasks

258   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تدرس هذه الورقة التعلم المستمر (CL) بتسلسل مهام تصنيف معنويات الجانب (ASC).على الرغم من اقتراح بعض تقنيات CL لتصنيف معنويات المستندات، إلا أننا لسنا على علم بأي عمل CL على ASC.يجب أن يتعلم نظام CL الذي يتعلم تدريجيا سلسلة من مهام ASC المشكلتين التاليين: (1) نقل المعرفة المستفادة من المهام السابقة إلى المهمة الجديدة للمساعدة في تعلم نموذج أفضل، و (2) الحفاظ على أداء النماذجالمهام السابقة بحيث لا تنسى.تقترح هذه الورقة نموذجا قائم على شبكة كبسولة رواية يسمى B-CL لمعالجة هذه المشكلات.ب-CL يحسن بشكل ملحوظ أداء ASC على كل من المهمة الجديدة والمهام القديمة عبر نقل المعرفة للأمام والخلف.يتم إثبات فعالية B-CL من خلال تجارب واسعة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تدرس هذه الورقة التعلم المستمر (CL) من تسلسل مهام تصنيف معنويات الجانب (ASC) في إعداد CL معين يسمى التعلم الإضافي للمجال (DIL).كل مهمة هي من مجال أو منتج مختلف.يعد إعداد DIL مناسبا بشكل خاص للأشعة السوداء لأنه في اختبار لا يحتاج النظام إلى معرفة المه مة / المجال التي تنتمي إليها بيانات الاختبار.لمعرفةنا، لم تتم دراسة هذا الإعداد من قبل للحصول على ASC.تقترح هذه الورقة نموذجا جديدا يسمى الكلاسيكية.الجدة الرئيسية هي طريقة تعلم مستمرة مناقصة تمكن من نقل المعرفة عبر المهام وتقطير المعرفة من المهام القديمة إلى المهمة الجديدة، مما يلغي الحاجة إلى معرفات المهام في الاختبار.النتائج التجريبية تظهر فعالية عالية من الكلاسيكية.
الملخص نقدم إطارا نظري لفهم وتوقع تعقيد مهام تصنيف التسلسل، باستخدام تمديد جديد لنظرية حساسية وظيفة المنطقية. حساسية الوظيفة، نظرا للتوزيع على تسلسل الإدخال، يحدد عدد الفك القصير من تسلسل الإدخال الذي يمكن تغيير كل منهما بشكل فردي لتغيير الإخراج. نقو ل أن أساليب تصنيف التسلسل القياسية متحيزة نحو تعلم وظائف الحساسية المنخفضة، بحيث تكون المهام التي تتطلب حساسية عالية أكثر صعوبة. تحقيقا لهذه الغاية، نظهر تحليليا أن المصنفات المعجمية البسيطة يمكن أن تعبر فقط عن وظائف الحساسية المحددة، ونظرا تجريبيا أن وظائف الحساسية المنخفضة هي أسهل للتعلم من أجل LSTMS. ثم نقدر الحساسية في 15 مهام NLP، ويجد أن الحساسية أعلى على المهام الصعبة التي تم جمعها في الغراء أكثر من مهام تصنيف النص البسيطة، وأن الحساسية تتنبأ بأداء كل من المصنفات المعجمية البسيطة والفانيليا BILSTMS دون إشارة إلى تضمينات محاط بأذى. في غضون مهمة، تتوقع الحساسية المدخلات من الصعب على هذه النماذج البسيطة. تشير نتائجنا إلى أن نجاح التمثيلات السياقية المسبقة بشكل كبير ينبع جزئيا لأنهم يقدمون تمثيلات يمكن استخراج المعلومات من خلال فك رموز حساسية منخفضة الحساسية.
أظهر العمل الأخير على تصنيف المعنويات على مستوى جانب جانب الجسبي فعالية دمج الهياكل النحوية مثل أشجار الاعتمادية مع شبكات عصبية رسم بيانية (GNN)، ولكن هذه الأساليب عادة ما تكون عرضة للخطأ في التحليل. لتحسين الاستفادة من المعلومات الأساسية في مواجهة ا لأخطاء التي لا مفر منها، نقترح تقنية رسم بياني بسيطة ولكنها فعالة، Grapmerge، للاستفادة من التنبؤات من المحللين المختلفين. بدلا من تعيين مجموعة واحدة من المعلمات النموذجية إلى كل شجرة التبعية، نقدم أولا علاقات التبعية من يوزعات مختلفة قبل تطبيق GNNS على الرسم البياني الناتج. يسمح هذا نماذج GNN قوية بتحليل الأخطاء دون أي تكلفة حسابية إضافية، ويساعد على تجنب التغلب على التغلب والتجول من تكديس طبقة GNN عن طريق إدخال المزيد من التوصيلية في الرسم البياني للفرقة. تظهر تجاربنا في مهمة Semeval 2014 Task 4 و ACL 14 Twitter أن نموذج Graphmerge الخاص بنا ليس فقط تفوق النماذج مع شجرة الاعتماد الفردي، ولكن أيضا يدق نماذج فرقة أخرى دون إضافة معلمات النموذج.
حقق تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) عروضا حديثة على العديد من مهام تصنيف النص، مثل تحليل الغراء والمعنويات. بدأ العمل الأخير في المجال القانوني في استخدام بيرت في المهام، مثل التنبؤ بالحكم القانوني والتنبؤ بالانتهاك. تتمثل الممارسات ا لشائعة في استخدام Bert في ضبط نموذج مدرب مسبقا على مهمة مستهدفة واقتطع نصات الإدخال بحجم إدخال BERT (E.G. في معظم الرموز 512). ومع ذلك، نظرا للخصائص الفريدة للمستندات القانونية، فليس من الواضح كيفية التكيف بفعالية بيرت في المجال القانوني. في هذا العمل، نحقق في كيفية التعامل مع المستندات الطويلة، وكيفية أهمية التدريب المسبق على المستندات من نفس المجال باعتباره المهمة المستهدفة. نحن نقوم بإجراء تجارب على مجموعات البيانات الأخيرة: DataSet DataSet ECHR ومجموعة بيانات المهام الناجحة، وهي مهام التصنيف متعددة الملصقات والتصنيف الثنائي، على التوالي. الأهم من ذلك، في المتوسط ​​عدد الرموز في وثيقة من مجموعة بيانات انتهاك EURR أكثر من 1600. في حين أن المستندات الموجودة في مجموعة بيانات المهام الأساسية أقصر (الحد الأقصى لعدد الرموز 204). قارننا بدقة العديد من التقنيات لتكييف بيرت على وثائق طويلة ومقارنة النماذج المختلفة المدربة مسبقا على المجالات القانونية وغيرها. تظهر نتائجنا التجريبية أننا نحتاج إلى التكيف بشكل صريح بتكييف بيرت للتعامل مع المستندات الطويلة، حيث يؤدي اقتطاع إلى أداء أقل فعالية. وجدنا أيضا أن التدريب المسبق على المستندات التي تشبه المهمة المستهدفة ستؤدي إلى أداء أكثر فعالية في العديد من السيناريو.
يمكن جمع كميات كبيرة من سجلات التفاعل من أنظمة NLP التي يتم نشرها في العالم الحقيقي.كيف يمكن الاستفادة من هذه الثروة من المعلومات؟يعد استخدام سجلات التفاعل هذه في إعداد تعليم التعزيز (RL) غير متصل نهجا واعدا.ومع ذلك، نظرا لطبيعة مهام NLP وقيود أنظمة الإنتاج، تنشأ سلسلة من التحديات.نقدم نظرة عامة موجزة عن هذه التحديات ومناقشة الحلول الممكنة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا