ترغب بنشر مسار تعليمي؟ اضغط هنا

متى تساعد MLM أو إعادة تدريب المزيد مسبقا؟دراسة تجريبية حول الحوار موجه نحو المهام قبل التدريب

When does Further Pre-training MLM Help? An Empirical Study on Task-Oriented Dialog Pre-training

526   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

مزيد من النماذج اللغوية المسبقة للتدريب على البيانات داخل المجال (التدريب المسبق مسبقا، Dapt) أو البيانات ذات الصلة (TAME-APT-APTICTIVE، TAPT) قبل أن تؤدي إلى تحسين أداء المهام المصب.ومع ذلك، في نمذجة الحوار الموجهة نحو المهام، نلاحظ أن مزيد من الامتيازات التدريبية قبل التدريب لا تعزز دائما الأداء في مهمة المصب.نجد أن DIST مفيد في إعداد الموارد المنخفضة، ولكن نظرا لأن حجم بيانات ضبط الرصيف ينمو، يصبح DIST أقل فائدة أو حتى عديمة الفائدة، وتوسيع نطاق حجم بيانات Dapt لا يساعد.من خلال تحليل التشابه التمثيلي، نستنتج أن المزيد من البيانات الخاصة بالضبط بشكل جيد غلة تغيير أكبر في تمثيلات النموذج وبالتالي تقلل من تأثير التهيئة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نظرا لأن تكلفة وضع العلامات للوحدات المختلفة في أنظمة الحوار الموجهة نحو المهام (TOD) باهظ الثمن، فإن التحدي الرئيسي هو تدريب وحدات مختلفة بأقل قدر من البيانات المسمى. أظهرت نماذج اللغة المدربة مسبقا مؤخرا، نتائج واعدة واعدة لعدد قليل من التعلم في TO D. في هذه الورقة، نرتند نهجا للتدريب الذاتي للاستفادة من بيانات الحوار غير المسبق الوفيرة لزيادة تحسين النماذج المدربة للدولة المدربة مسبقا في سيناريوهات تعليمية قليلة لأنظمة TOD. على وجه التحديد، نقترح نهجا للتدريب الذاتي أن تستلم البيانات الأكثر ثقة أكثر ثقة لتدريب نموذج طالب أقوى. علاوة على ذلك، يقترح تقنية تكبير نص جديد (GradaG) تدريب الطالب بشكل أفضل عن طريق استبدال الرموز غير الحاسمة باستخدام نموذج لغة ملثم. نقوم بإجراء تجارب مكثفة وتحليلات موجودة على أربع مهام المصب في TOD، بما في ذلك تصنيف النوايا وتتبع ولاية الحوار وتنبؤ قانون الحوار واختيار الاستجابة. توضح النتائج التجريبية أن نهج التدريب الذاتي المقترح باستمرار يحسن باستمرار النماذج المدربة مسبقا من أحدث (بيرت، TOD-BERT-BERT) عند توفر عدد صغير فقط من البيانات المسمى.
عادة ما تتطلب النهج العصبية لتوليد اللغة الطبيعية في الحوار الموجه في المهام كميات كبيرة من بيانات التدريب المشروح لتحقيق أداء مرض، خاصة عند توليد المدخلات التركيبية. لمعالجة هذه المشكلة، نظهر أن التدريب الذاتي المعزز مع فك التشفير المقيد غلة مكاسب ك بيرة في كفاءة البيانات على مجموعة بيانات الطقس التي توظف تمثيلات المعنى المتراكم. على وجه الخصوص، تشير تجاربنا إلى أن التدريب الذاتي مع فك التشفير المقيد يمكن أن تمكن نماذج التسلسل إلى التسلسل لتحقيق جودة مرضية باستخدام بيانات أقل من خمسة إلى عشرة أضعاف بيانات أقل من خط الأساس الخاضع للإشراف العادي؛ علاوة على ذلك، من خلال الاستفادة من النماذج المحددة، يمكن زيادة كفاءة البيانات إلى خمسين مرة. نؤكد النتائج التلقائية الرئيسية مع التقييمات البشرية وإظهار أنها تمتد إلى نسخة محسنة وتركيبية من DataSet E2E. والنتيجة النهائية هي نهج يجعل من الممكن تحقيق أداء مقبول على مهام NLG التركيبية باستخدام المئات بدلا من عشرات الآلاف من عينات التدريب.
تحميل النماذج المدربة مسبقا على الكائنات الكبيرة على نطاق واسع في المجال العام وتوضعها على مهام محددة من المصب هي تدريجيا نموذجا في معالجة اللغة الطبيعية. يمكن أن تثبت التحقيقات السابقة أن إدخال مراحل ما قبل التدريب الإضافي بين مراحل ما قبل التدريب و الضبط بشكل جيد لتكييف النموذج على البيانات الخاصة بالمجال الخاصة بالمجال يمكن أن يؤدي إلى إثبات تأثيرات إيجابية. ومع ذلك، فإن معظم هذه أعمال التدريب المسبق الإضافية هذه فقط استمر في تشغيل المهمة التقليدية السابقة للتدريب، على سبيل المثال، نموذج اللغة الملثم، والتي يمكن اعتبارها كتكيف مجال إلى سد فجوة توزيع البيانات. بعد مراعاة المهام المتنوعة المصب، نقترح أن المهام المختلفة قد تحتاج أيضا إلى مرحلة أخرى قبل التدريب مع مهام التدريب المناسبة لسد فجوة صياغة المهمة. للتحقيق في ذلك، نقوم بدراسة لتحسين مهام تسليم الحوار الموجهة نحو المهام المتعددة من خلال تصميم المهام المختلفة في مرحلة ما قبل التدريب المسبق. توضح التجربة أن المهام المختلفة المصب تفضل مزيد من المهام التدريبية المسبقة المختلفة، والتي لها علاقة جوهرية وأكبر مهام التدريب المسبق بشكل كبير تحسين المهام المستهدفة بشكل كبير بدلا من ذلك. يشير تحقيقنا إلى أنه من الأهمية والفعالية الكبرى لتصميم مهام التدريب المسبق المناسبة نمذجة معلومات محددة تفيد بمهام المصب. بالإضافة إلى ذلك، نقدم استنتاجات تجريبية بناءة متعددة لتعزيز الحوارات الموجهة نحو المهام.
اكتسبت النماذج الإدارية لأنظمة الحوار اهتماما كبيرا بسبب النجاح الأخير من RNN والنماذج القائمة على المحولات في مهام مثل الإجابة على الأسئلة والتلخيص. على الرغم من أن مهمة استجابة الحوار ينظر إليها عموما على أنها تسلسل للتسلسل (SEQ2SEQ) المشكلة، فقد و جدت الباحثون في الماضي أنه يمثل تحديا لتدريب أنظمة الحوار باستخدام نماذج SEQ2SEQ القياسية. لذلك، لمساعدة النموذج على تعلم نطق حقيقي وميزات مستوى المحادثة، Sordoni et al. (2015B)، serban et al. (2016) بنية RNN الهرمية المقترحة، التي تم اعتمادها لاحقا من قبل العديد من أنظمة الحوار RNN الأخرى. مع النماذج القائمة على المحولات التي تسيطر على مشاكل SEQ2SeQ مؤخرا، فإن السؤال الطبيعي الذي يجب طرحه هو قابلية مفهوم التسلسل الهرمي في أنظمة الحوار المحول. في هذه الورقة، نقترح إطارا عمليا لترميز المحولات الهرمية وإظهار كيف يمكن تحويل محول قياسي إلى أي ترميز هرمي، بما في ذلك Hred و Hibert مثل النماذج، باستخدام أقنعة اهتمام مصممة خصيصا والترميزات الموضعية. نوضح أن الترميز الهرمي يساعد في تحقيق فهم لغوي أفضل في اللغة الطبيعية للسياق في النماذج القائمة على المحولات لأنظمة الحوار الموجهة نحو المهام من خلال مجموعة واسعة من التجارب.
تهدف ترجمة جهاز الوثائق إلى ترجمة جملة المصدر إلى اللغة المستهدفة بحضور معلومات سياقية إضافية.ومع ذلك، فإنه يعاني عادة من نقص البيانات ثنائية اللغة الوثيقة.لعلاج هذا، هنا نقترح نهجا ما قبل السياق البسيط والفعال في السياق، والذي يستحق الاستفادة من كور سا واسعة النطاق الخارجي.ينفذ النموذج المقترح توليد جملة جملة لالتقاط تبعية الجملة المتعددة في الوثيقة المستهدفة، والترجمة عبر الجملة الصريعة للاستفادة بشكل أفضل من المعلومات السياقية القيمة.توضح تجارب شاملة أن نهجنا يمكن أن تحقق أداء أحدث على ثلاثة مجموعات بيانات معيار، مما يتفوق بشكل كبير على مجموعة متنوعة من الأساس.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا