ترغب بنشر مسار تعليمي؟ اضغط هنا

إعادة النظر في الماضي: تحسين الدول المخفية في نماذج اللغة

Reconsidering the Past: Optimizing Hidden States in Language Models

393   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقدم تحسين الحالة المخفية (HSO)، وهي طريقة قائمة على التدرج لتحسين أداء نماذج لغة المحولات في وقت الاستدلال.على غرار التقييم الديناميكي (Krause et al.، 2018)، يقوم HSO بتحسين التدرج على احتمال تسجيل الدخول يعين نموذج اللغة لنص التقييم، ولكنه يستخدمه لتحديث الدول المخففة المخزنة مؤقتا بدلا من المعلمات النموذجية.نقوم باختبار HSO مع نماذج لغة محول XL و GPT-2، وإيجاد تحسن على مجموعات بيانات Wikitext-103 و PG-19 من حيث الحيرة، خاصة عند تقييم نموذج خارج توزيع التدريب الخاص به.نحن نوضح أيضا إمكانية تطبيق المصب من خلال إظهار المكاسب في إعداد تقييم القليل من القليل من القليل من القليل من الطوابق المتقدما مؤخرا، مرة أخرى دون أي معلمات إضافية أو بيانات تدريبية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تهدف وفرة العمل المنهجي إلى اكتشاف اللغة البغيضة والعنصرية في النص. ومع ذلك، تعوق هذه الأدوات عن مشاكل مثل اتفاقية معلقية منخفضة وتبقى غير متصل إلى حد كبير من العمل النظري في العرق والعنصرية في العلوم الاجتماعية. باستخدام التعليقات التوضيحية من 5188 تغريدة من 291 Annwotators، نحقق في كيفية تختلف تصورات العنصرية في التغريدات في تغريدات Annotator عن الهوية العنصرية واثنين من أهم ميزات التغريدات: الكلمات الرئيسية ذات الصلة والمواضيع الكامنة المحددة من خلال نمذجة الموضوع الهيكلية. نحن نقدم ملخصا وصفيا لبياناتنا وتقدير سلسلة من النماذج الخطية المعممة لتحديد ما إذا كانت الهوية العنصرية المعجلية و 12 مواضيع كامنة، وحدنا أو مجتمعة، شرح الطريقة التي تم تفاحها المشاعر العنصري، صافي الخصائص المعلقية ذات الصلة وميزات سقسقة. تظهر نتائجنا أن المعلقين الأبيض والأبيض غير البيض يحملون اختلافات كبيرة في التصنيفات عند قراءة تغريدات مع ارتفاع الموضوعات المعينة والمشاهية بعصري. نستنتج من خلال الإشارة إلى كيفية الاستفادة من العمل المنهجي في المستقبل على نتائجنا ومزيد من إدراج نظرية العلوم الاجتماعية في التحليلات.
كان التقدم المحرز الأخير في نمذجة اللغة مدفوعة ليس فقط بالتقدم في البنيات العصبية، ولكن أيضا من خلال تحسين الأجهزة والتحسين.في هذه الورقة، نؤيد نموذج اللغة الاحتمالية العصبية (NPLM) من بنغيو وآخرون.(2003)، والتي تسلسل ببساطة تضمين كلمة داخل نافذة ثاب تة ويمرر النتيجة من خلال شبكة تغذية إلى الأمام للتنبؤ بالكلمة التالية.عند القياس حتى الأجهزة الحديثة، يؤدي هذا النموذج (على الرغم من قيودها العديدة) أفضل بكثير مما كان متوقعا عن معايير نموذج اللغة على مستوى Word.يكشف تحليلنا أن NPLM يحقق حيرة أقل من محول الأساس مع سياقات مدخلات قصيرة ولكن تكافح للتعامل مع تبعيات طويلة الأجل.مستوحاة من هذه النتيجة، نقوم بتعديل المحول عن طريق استبدال طبقة انتباهي أول مع طبقة التسلسل المحلية في NPLM، مما يؤدي إلى انخفاض حيرة صغيرة ولكنها ثابتة عبر مجموعات بيانات نمذجة لغة مستوى الكلمات.
استفاد من إعادة صياغة الصياغة على نطاق واسع من التقدم الأخير في تصميم الأهداف التدريبية والبنية النموذجية. ومع ذلك، تركز الاستكشافات السابقة إلى حد كبير على الأساليب الخاضعة للإشراف، والتي تتطلب كمية كبيرة من البيانات المسمى ذات مكلفة لجمعها. لمعالجة هذا العيب، نعتمد نهجا للتعلم ونقله واقتراح خط أنابيب التدريب الذي يتيح نماذج اللغة المدربة مسبقا لتوليد أول اتصالات عالية الجودة في إعداد غير محدد. تتكون وصفة لدينا من تكيف المهام والإشراف الذاتي وخوارزمية فك التشفير الجديدة المسماة حظر ديناميكي (DB). لفرض نموذج سطح متغاضي عن الإدخال، كلما أن نموذج اللغة ينبعث رمز رمزي موجود في تسلسل المصدر، يمنع DB النموذج من إخراج الرمز المميز اللاحق للمصدر خطوة الجيل التالي. نظرا للتقييمات التلقائية والإنسانية أن نهجنا يحقق أداء حديثة من كل من زوج السؤال Quora (QQP) ومجموعات بيانات Paranmt قوية لتحويل المجال بين مجموعة بيانات التوزيعات المميزة. نحن نوضح أيضا تحويلاتنا النموذجية إلى إعادة صياغة لغات أخرى دون أي رسوم إضافية.
المعرفة الواقعية المكتسبة أثناء التدريب المسبق وتخزينها في معلمات نماذج اللغة (LMS) يمكن أن تكون مفيدة في مهام المصب (على سبيل المثال، الإجابة على السؤال أو الاستدلال النصي). ومع ذلك، يمكن أن تسبب بعض الحقائق أو تصبح عفا عليها الزمن مع مرور الوقت. نق دم المعلمين، وهي طريقة يمكن استخدامها لتحرير هذه المعرفة، وبالتالي إصلاح الأخطاء أو التنبؤات غير المتوقعة دون الحاجة إلى إعادة تدريب مكلفة أو ضبط جيد. إلى جانب كونها فعالة بشكل حسابي، لا تتطلب المعرفة المعرفة أي تعديلات في LM قبل التدريب (على سبيل المثال، استخدام التعلم التلوي). في نهجنا، نحن ندرب شبكة فرط بتحسين مقيد لتعديل حقيقة دون التأثير على بقية المعرفة؛ ثم يتم استخدام شبكة Hyper المدربة للتنبؤ بتحديث الوزن في وقت الاختبار. نعرض فعالية المعرفة مع اثنين من المهندسينيات الشائعة ومهام المعرفة المكثفة: ط) نموذج بيرت يتم ضبطه بشكل جيد لفحص الحقائق، والثاني) نموذج بارت تسلسل إلى تسلسل للرد على السؤال. من خلال طريقتنا، يميل تغيير التنبؤ بشأن الصياغة المحددة لاستعلامه إلى تغيير متسق في التنبؤ أيضا بصيادتها. نظرا لأن هذا يمكن تشجيعه بشكل أكبر من خلال استغلال الصياغة (على سبيل المثال، التي تم إنشاؤها تلقائيا) أثناء التدريب. ومن المثير للاهتمام، أن شبكة فرط لدينا يمكن اعتبارها مسبار "تكشف عن مكونات يجب تغييرها لمعالجة المعرفة الواقعية؛ يوضح تحليلنا أن التحديثات تميل إلى التركيز على مجموعة فرعية صغيرة من المكونات. شفرة المصدر المتاحة في https://github.com/nicola-decao/knowegleditor
الرجوع إلى النصوص التي تنقل نفس المعنى بأشكال تعبير مختلفة. أظهرت الأساليب المستندة إلى Pivot، المعروف أيضا باسم ترجمة الرحلة المستديرة، نتائج واعدة في توليد صياغة عالية الجودة. ومع ذلك، فإن الأساليب القائمة على المحور القائمة تعتمد جميعها على اللغة مثل المحور، حيث تكون النصوص الثنائية الثنائية الموازية على نطاق واسع، مطلوبة موازية عالية الجودة. في هذه الورقة، نستكشف جدوى استخدام التمثيلات الدلالية والنزاهة كحوري من أجل إعادة صياغة نصبها. بشكل ملموس، نتحول جملة إلى مجموعة متنوعة من التمثيلات الدلالية أو النحوية المختلفة (بما في ذلك AMR، UD، وتمثيل الدلالي الكامن)، ثم فك تشفير الجملة من التمثيل الدلالي. نسمح أيضا نهجا يستند إلى إعادة الاحتجاط بضغط عملية خط الأنابيب في إطار نهاية إلى نهاية. نقوم بإجراء تجارب تقارن مناهج مختلفة مع أنواع مختلفة من المحاور. تظهر النتائج التجريبية أن اتخاذ AMR كما يمكن للمحافظة الحصول على صياغة مع جودة أفضل من تناول اللغة كمحور. يمكن للإطار الطرفي النهائي أن يقلل من التحول الدلالي عند استخدام اللغة كحوري. إضافة إلى جانب ذلك، يمكن أن تولد العديد من الطرق القائمة على المحور غير المركبات أن تولد صياغة مع جودة مماثلة كنموذج التسلسل الإشراف على التسلسل، والذي يشير إلى أن البيانات الموازية للصيانة قد لا تكون ضرورية لإعادة صياغة عناصر التوليد.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا