مزيد من النماذج اللغوية المسبقة للتدريب على البيانات داخل المجال (التدريب المسبق مسبقا، Dapt) أو البيانات ذات الصلة (TAME-APT-APTICTIVE، TAPT) قبل أن تؤدي إلى تحسين أداء المهام المصب.ومع ذلك، في نمذجة الحوار الموجهة نحو المهام، نلاحظ أن مزيد من الامتيازات التدريبية قبل التدريب لا تعزز دائما الأداء في مهمة المصب.نجد أن DIST مفيد في إعداد الموارد المنخفضة، ولكن نظرا لأن حجم بيانات ضبط الرصيف ينمو، يصبح DIST أقل فائدة أو حتى عديمة الفائدة، وتوسيع نطاق حجم بيانات Dapt لا يساعد.من خلال تحليل التشابه التمثيلي، نستنتج أن المزيد من البيانات الخاصة بالضبط بشكل جيد غلة تغيير أكبر في تمثيلات النموذج وبالتالي تقلل من تأثير التهيئة.
Further pre-training language models on in-domain data (domain-adaptive pre-training, DAPT) or task-relevant data (task-adaptive pre-training, TAPT) before fine-tuning has been shown to improve downstream tasks' performances. However, in task-oriented dialog modeling, we observe that further pre-training MLM does not always boost the performance on a downstream task. We find that DAPT is beneficial in the low-resource setting, but as the fine-tuning data size grows, DAPT becomes less beneficial or even useless, and scaling the size of DAPT data does not help. Through Representational Similarity Analysis, we conclude that more data for fine-tuning yields greater change of the model's representations and thus reduces the influence of initialization.
المراجع المستخدمة
https://aclanthology.org/
نظرا لأن تكلفة وضع العلامات للوحدات المختلفة في أنظمة الحوار الموجهة نحو المهام (TOD) باهظ الثمن، فإن التحدي الرئيسي هو تدريب وحدات مختلفة بأقل قدر من البيانات المسمى. أظهرت نماذج اللغة المدربة مسبقا مؤخرا، نتائج واعدة واعدة لعدد قليل من التعلم في TO
عادة ما تتطلب النهج العصبية لتوليد اللغة الطبيعية في الحوار الموجه في المهام كميات كبيرة من بيانات التدريب المشروح لتحقيق أداء مرض، خاصة عند توليد المدخلات التركيبية. لمعالجة هذه المشكلة، نظهر أن التدريب الذاتي المعزز مع فك التشفير المقيد غلة مكاسب ك
تحميل النماذج المدربة مسبقا على الكائنات الكبيرة على نطاق واسع في المجال العام وتوضعها على مهام محددة من المصب هي تدريجيا نموذجا في معالجة اللغة الطبيعية. يمكن أن تثبت التحقيقات السابقة أن إدخال مراحل ما قبل التدريب الإضافي بين مراحل ما قبل التدريب و
اكتسبت النماذج الإدارية لأنظمة الحوار اهتماما كبيرا بسبب النجاح الأخير من RNN والنماذج القائمة على المحولات في مهام مثل الإجابة على الأسئلة والتلخيص. على الرغم من أن مهمة استجابة الحوار ينظر إليها عموما على أنها تسلسل للتسلسل (SEQ2SEQ) المشكلة، فقد و
تهدف ترجمة جهاز الوثائق إلى ترجمة جملة المصدر إلى اللغة المستهدفة بحضور معلومات سياقية إضافية.ومع ذلك، فإنه يعاني عادة من نقص البيانات ثنائية اللغة الوثيقة.لعلاج هذا، هنا نقترح نهجا ما قبل السياق البسيط والفعال في السياق، والذي يستحق الاستفادة من كور