ترغب بنشر مسار تعليمي؟ اضغط هنا

إعادة النظر في نماذج لغة الاحتمالية البسيطة العصبية

Revisiting Simple Neural Probabilistic Language Models

288   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

كان التقدم المحرز الأخير في نمذجة اللغة مدفوعة ليس فقط بالتقدم في البنيات العصبية، ولكن أيضا من خلال تحسين الأجهزة والتحسين.في هذه الورقة، نؤيد نموذج اللغة الاحتمالية العصبية (NPLM) من بنغيو وآخرون.(2003)، والتي تسلسل ببساطة تضمين كلمة داخل نافذة ثابتة ويمرر النتيجة من خلال شبكة تغذية إلى الأمام للتنبؤ بالكلمة التالية.عند القياس حتى الأجهزة الحديثة، يؤدي هذا النموذج (على الرغم من قيودها العديدة) أفضل بكثير مما كان متوقعا عن معايير نموذج اللغة على مستوى Word.يكشف تحليلنا أن NPLM يحقق حيرة أقل من محول الأساس مع سياقات مدخلات قصيرة ولكن تكافح للتعامل مع تبعيات طويلة الأجل.مستوحاة من هذه النتيجة، نقوم بتعديل المحول عن طريق استبدال طبقة انتباهي أول مع طبقة التسلسل المحلية في NPLM، مما يؤدي إلى انخفاض حيرة صغيرة ولكنها ثابتة عبر مجموعات بيانات نمذجة لغة مستوى الكلمات.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

وجدت خوارزميات التدرج السياسي اعتماد واسع في NLP، لكنها أصبحت مؤخرا عرضة للنقد، مما يشك في ملاءمتها ل NMT.تشوشين وآخرون.(2020) حدد نقاط ضعف متعددة والشك في تحديد نجاحهم من خلال شكل توزيعات الإخراج بدلا من المكافأة.في هذه الورقة، نلتأكيد هذه المطالبات ودراسةها تحت مجموعة أوسع من التكوينات.تكشف تجاربنا على التكيف في المجال والمجال عبر المجال أهمية الاستكشاف والمكافآت، وتوفير الأدلة المضادة التجريبية لهذه المطالبات.
عملت نماذج اللغة المحددة من قبل العمود الفقري للعديد من النتائج NLP الحديثة. هذه النماذج كبيرة ومكلفة لتدريب. يشير العمل الحديث إلى أن الاحيلاء المستمر على البيانات الخاصة بمهام المهام يستحق هذا الجهد كقاولات محدبة لتحسين الأداء في مهام المصب. نستكشف بدائل لحقوق المهام ذات المستوى الشامل من النماذج اللغوية من خلال استخدام وحدات محول، ونهج فعال مع المعلمة لنقل التعلم. نجد أن محاولات محول يستند إلى تحقيق نتائج مماثلة لإحاطاء المهام المحدد أثناء استخدام جزء بسيط من المعلمات التدريبية الشاملة. نحن نستكشف بشكل مباشر عن الاستخدام المباشر للمحولات دون احتجاج ويجد أن الضبط الدقيق المباشر ينفذ في الغالب على قدم المساواة مع نماذج محول مسبقا، ومتناقض مع الفوائد المقترحة سابقا للمحاكاة المستمرة في استراتيجيات ضبط دقيقة تماما. أخيرا، نقوم بإجراء دراسة الاجتثاث حول الاحتجاج بالتكيف مع المهام للتحقيق في كيفية إجراء إعدادات مختلفة من ضغطات HyperParameter فعالية الاحتجاج.
نقدم تحسين الحالة المخفية (HSO)، وهي طريقة قائمة على التدرج لتحسين أداء نماذج لغة المحولات في وقت الاستدلال.على غرار التقييم الديناميكي (Krause et al.، 2018)، يقوم HSO بتحسين التدرج على احتمال تسجيل الدخول يعين نموذج اللغة لنص التقييم، ولكنه يستخدمه لتحديث الدول المخففة المخزنة مؤقتا بدلا من المعلمات النموذجية.نقوم باختبار HSO مع نماذج لغة محول XL و GPT-2، وإيجاد تحسن على مجموعات بيانات Wikitext-103 و PG-19 من حيث الحيرة، خاصة عند تقييم نموذج خارج توزيع التدريب الخاص به.نحن نوضح أيضا إمكانية تطبيق المصب من خلال إظهار المكاسب في إعداد تقييم القليل من القليل من القليل من القليل من الطوابق المتقدما مؤخرا، مرة أخرى دون أي معلمات إضافية أو بيانات تدريبية.
التصنيف العاطفي هو مهمة ربط النص تلقائيا بمشاعر بشرية.عادة ما يتم تعلم النماذج من أحدث النماذج باستخدام كورسا المشروح أو الاعتماد على المعجم العاطفي المصنوعة يدويا.نقدم نموذج تصنيف العاطفة لا يتطلب أن تكون كوربوس مشروحة كبيرة تنافسية.نقوم بتجربة نماذ ج اللغة المسبقة مسبقا في كل من طلقة صفرية وعدد قليل من التكوين.نبني العديد من هذه النماذج ونظرا لهم بأنها متحيزة، صاخبة صاخبة، أدائها الفردي ضعيف.نحن نكمل تنبؤات هذه النماذج باستخدام طريقة بايزي تطورت أصلا لشرائيات النمذجة الجماعية.بعد ذلك، نظهر أن النظام الناتج يؤدي أفضل من أقوى النموذج الفردي.أخيرا، نظهر أنه عند التدريب على عدد قليل من البيانات المسمى، تتفوق أنظمتنا النماذج الخاضعة للإشراف بالكامل.
عند بناء أنظمة الترجمة الآلات، يحتاج المرء في كثير من الأحيان إلى الاستفادة القصوى من مجموعات غير متجانسة من البيانات الموازية في التدريب، والتعامل مع المدخلات بقوة من المجالات غير المتوقعة في الاختبار.جذبت هذا السيناريو متعدد المجالات الكثير من العم ل الحديث الذي يقع تحت المظلة العامة لتعلم النقل.في هذه الدراسة، نشجع الترجمة متعددة المجالات، بهدف صياغة الدوافع لتطوير هذه الأنظمة والتوقعات المرتبطة فيما يتعلق بالأداء.تبين تجاربنا مع عينة كبيرة من أنظمة المجال متعددة أن معظم هذه التوقعات تلتقي بالكاد وتشير إلى أن هناك حاجة إلى مزيد من العمل لتحليل السلوك الحالي لأنظمة المجالات المتعددة وجعلها تمسك بوعودها بالكامل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا