ترغب بنشر مسار تعليمي؟ اضغط هنا

Dilbert: تخصيص ما قبل التدريب لتكييف المجال مع تحول الفئة، مع تطبيق لاستخراج الجانب

DILBERT: Customized Pre-Training for Domain Adaptation with Category Shift, with an Application to Aspect Extraction

295   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أسفرت صعود النماذج اللغوية المدربة مسبقا تقدما كبيرا في الغالبية العظمى من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، يمكن أن يكون النهج العام باتجاه الإجراء المسبق للتدريب بطبيعة الحال في بعض الحالات. بشكل خاص، قم بضبط نموذج لغة مدرب مسبقا في مجال المصدر ثم تطبيقه على نطاق مستهدف مختلف، يؤدي إلى انخفاض أداء حاد من المصنف النهائي للعديد من أزواج المجال المستهدف المصدر. علاوة على ذلك، في بعض مهام NLP، تختلف فئات الإخراج بشكل كبير بين المجالات، مما يجعل التكيف أكثر تحديا. هذا، على سبيل المثال، يحدث في مهمة استخراج الجانب، حيث قد تكون جوانب اهتمام الاستعراضات، على سبيل المثال، المطاعم أو الأجهزة الإلكترونية مختلفة للغاية. تقدم هذه الورقة مخططا جديدا للضبط في بيرت، والتي تهدف إلى معالجة التحديات المذكورة أعلاه. نحن نسمي هذا المخطط Dilbert: تعلم المجال الثابتة مع Bert، وتخصيصه لاستخراج الجانب في إعداد تكيف المجال غير المقترح. يسخر Dilbert المعلومات الفئوية لكل من المصدر والمجالات المستهدفة لتوجيه عملية التدريب المسبق نحو تمثيل ثنائي النطاق والفئة، مما يغلق الفجوة بين المجالات. نظهر أن Dilbert يعطي تحسينات كبيرة على خطوط الأساس الحديثة أثناء استخدام جزء صغير من البيانات غير المسبقة، لا سيما في إعدادات تكيف مجال أكثر تحديا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تظهر الأبحاث الحديثة أن النماذج المدربة مسبقا (PTMS) مفيدة تجزئة الكلمات الصينية (CWS).ومع ذلك، فإن PTMS المستخدمة في الأعمال السابقة عادة ما تعتمد نمذجة اللغة كامرأة تدريبية مسبقا، تفتقر إلى معرفة تجزئة مسبقة خاصة بمهام المهام وتجاهل التناقض بين مها م ما قبل التدريب ومهام CWS المصب.في هذه الورقة، نقترح MetASE مطلقا مدربا مسبقا مسبقا CWS، والذي توظف هندسة موحدة ويشمل خوارزمية التعلم المعتوية في مهمة ما قبل التدريب متعدد المعايير.تظهر النتائج التجريبية أن METASEG يمكن أن تستخدم معرفة تجزئة مسبقة مشتركة من المعايير الحالية المختلفة وتخفيف التناقض بين النماذج المدربة مسبقا ومهام CWS المصب.علاوة على ذلك، يمكن أن يحقق MetASEG أداء جديدا على أحدث بيانات CWS المستخدمة على نطاق واسع وتحسين أداء النموذج بشكل كبير في إعدادات الموارد المنخفضة.
أظهر العمل الحديث أن نماذج لغة التدريب المسبق التدريبية يمكن أن تعزز الأداء عند التكيف إلى مجال جديد. ومع ذلك، فإن التكاليف المرتبطة بالتدريب المسبق رفع سؤال مهم: بالنظر إلى ميزانية ثابتة، ما هي الخطوات التي يجب أن يستغرق ممارس NLP لتعظيم الأداء؟ في هذه الورقة، نقوم بدراسة تكيف المجال بموجب قيود الموازنة، ونهجها كمشكلة اختيار العملاء بين شروح البيانات والتدريب المسبق. على وجه التحديد، نقيس تكلفة التوضيحية لثلاث مجموعات بيانات نصية إجرائية وتكلفة ما قبل التدريب من ثلاث نماذج لغوية داخل المجال. ثم نقيم فائدة مجموعات مختلفة من التدريب المسبق والتشريح بالبيانات بموجب قيود ميزانية متفاوتة لتقييم الاستراتيجية التي تعمل بشكل أفضل. نجد أنه بالنسبة للميزانيات الصغيرة، فإن إنفاق جميع الأموال على التوضيحية يؤدي إلى أفضل أداء؛ بمجرد أن تصبح الميزانية كبيرة بما فيه الكفاية، يعمل مزيج من شرح البيانات والتدريب المسبق في المجال على النحو الأمثل. لذلك نقترح أن تكون شروط التعريف الخاصة بالبيانات الخاصة بمهارات العمل يجب أن تكون جزءا من استراتيجية اقتصادية عند تكييف نموذج NLP إلى مجال جديد.
تهدف استخراج الأجل إلى الجانب إلى استخراج مصطلحات الجانب من جملة مراجعة قد أعرب المستخدمين عن آرائهم.واحدة من التحديات المتبقية لاستخراج مصطلح الجانب موجودة في الافتقار إلى البيانات المشروحة المكافحة.في حين أن التدريب الذاتي يحتمل أن يكون هناك طريقة فعالة لمعالجة هذه المسألة، فإن تسميات الزائفة التي تقوم بتسليمها على البيانات غير المسبقة قد تحفز الضوضاء.في هذه الورقة، نستخدم وسيلة اثنين لتخفيف الضوضاء في الملصقات الزائفة.واحد هو أنه مستوحى من تعلم المناهج الدراسية، ونحن نؤيد التدريب الذاتي التقليدي للتدريب الذاتي التدريجي.على وجه التحديد، ينطني النموذج الأساسي بالملصقات الزائفة في مجموعة فرعية تقدمية في كل تكرار، حيث تصبح العينات في المجموعة الفرعية أكثر صعوبة وأكثر كثرة في عائدات التكرار.والآخر هو أن نستخدم تمييزا لتصفية الملصقات الزائفة الصاخبة.تظهر النتائج التجريبية على أربعة مجموعات من مجموعات بيانات Sereval أن طرازنا تتفوق بشكل كبير على الأساس السابقة وتحقق أداء حالة من الفن.
في هذه الورقة، يمكننا التحقيق في مهمة تحليل المشاعر الفئة من الفئة (ACSA) من منظور جديد من خلال استكشاف بناء الرسوم البيانية المدرجة في جوانب التجريبية على أساس المعرفة الخارجية. وهذا يعني أننا لم نعد النزود حول كيفية البحث بشغف على أدلة المشاعر للجو انب الخشنة من السياق، ولكن كيف تفضل أن تجد الكلمات ذات الصلة بشدة إلى الجوانب في السياق وتحديد أهميتها بناء على قاعدة المعرفة العامة وبعد وبهذه الطريقة، يمكن تتبع أدلة المعنويات السياقية بشكل صريح في ACSA للجوانب في ضوء هذه الكلمات المتعلقة بالجانب. لتكون محددة، نعتبر أولا كل جانب كحوري لاستخلاص الكلمات التي تدرك الجانب مرتبطة بشدة بالجانب من معرفة المناولة العاطفية الخارجية. بعد ذلك، نوظف توزيع بيتا لاستكشاف الوزن على دراية الجسدة، والذي يعكس أهمية الجانب، لكل كلمة على أساس جوانب. بعد ذلك، يتم تقديم الكلمات التي يدركها الجانب كضعف من جانب المحبوس الخشبي لإنشاء رسوم بيانية لاستفادة من تبعيات المعنويات السياقية ذات الصلة بالجانب في ACSA. تظهر التجارب في 6 مجموعات بيانات معيار أن نهجنا تتفوق بشكل كبير على أساليب خط الأساس الحديثة.
تسهل المعلومات اللغوية الخشنة، مثل الكيانات أو العبارات المسماة، التعلم التمثيل بشكل كاف في التدريب المسبق. تعمل السابقة بشكل أساسي على توسيع هدف نمذجة لغة بيرت الملثمين (MLM) من إخفاء الرموز الفردية إلى تسلسلات متجاورة من الرموز N. نقول أن هذه الطري قة اخفاء هذه المتخلل تهمل طرازات التبعيات داخل الإتصال والمعلومات المشتركة بين المعلومات اللغوية المحبوبة الخشنة. كديل، نقترح Ernie-Gram، وهي طريقة إخفاء N-Gram بشكل صريح لتعزيز دمج المعلومات المحبوسة الخشنة في ما قبل التدريب. في Ernie-Gram، N-Grams ملثمين وتوقعت مباشرة باستخدام هويات N-Gram واضحة بدلا من تسلسلات متجاورة من الرموز N. علاوة على ذلك، توظف Ernie-Gram نموذج مولد للعينة من هويات N-Gram المعقولة كقنعة اختيارية N-Gram وتوقعها في كل من الأخلاق الخشنة والحبوب الدقيقة لتمكين تنبؤات N-Gram الشاملة ونمذجة العلاقة. نحن نسترجع تدريبات Ernie-Gram على النصوص باللغة الإنجليزية والصينية ونغمة الجميلة في 19 مهام المصب. تظهر النتائج التجريبية أن Ernie-Gram يتفوق على نماذج مسبقة التدريب السابقة مثل XLNet و Roberta بهامش كبير، وتحقق نتائج قابلة للمقارنة مع الطرق الحديثة. تم إصدار رموز المصدر والنماذج المدربة مسبقا في https://github.com/paddlepaddle/ernie.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا