ترغب بنشر مسار تعليمي؟ اضغط هنا

بعد أن يواجه نموذج التسلسل العصبي رمزية غير متوقعة، هل يمكن التنبؤ بسلوكه؟ نظهر أن نماذج Language RNN وحول المحولات تعرض تعميم مهيكلا متسقا في سياقات خارج التوزيع. نبدأ بإدخال نماذجين مثالية من التعميم في التنبؤ التالي بالكلمة التالية: نموذج سياق معج مي يعمل فيه التعميم يتفق مع الكلمة الأخيرة الملاحظة، ونموذج السياق النحامي الذي يتوافق فيه التعميم مع الهيكل العالمي للمدخلات. في تجارب باللغة الإنجليزية والفنلندية والماندرين ولغات منتظمة عشوائية، نوضح أن نماذج اللغة العصبية محبط بين هذين الشكلين من التعميم: تنبؤاتها تقارب جيدا من خلال مزيج خطي من التوزيعات التنبؤية المعجمية والنوعية. ثم نوضح ذلك، في بعض اللغات، يتوسط الضوضاء شكلين التعميم: الضوضاء المطبقة على رموز المدخلات تشجع التعميم النحوي، في حين أن الضوضاء في تمثيلات التاريخ تشجع التعميم المعجمي. أخيرا، نقدم شرحا نظريا أوليا لهذه النتائج من خلال إثبات أن سلوك الاستيفاء الملحوظ متوقع في النماذج الخطية من السجل مع هيكل ارتباط ميزة معينة. تساعد هذه النتائج في تفسير فعالية خططيتين تنظيمي شعبيتين وإظهار أن جوانب تعميم نموذج التسلسل يمكن فهمها والسيطر عليها.
حققت نماذج التسلسل العصبي غير المعروضة أداء تنافسية مع نماذج التسلسل الموجهة للحكومة الموجهة التي تولد رتيبا من اليسار إلى اليمين في مهام الترجمة الآلية. في هذا العمل، ندرب السياسة التي تتعلم طلب الجيل لنموذج الترجمة المدربة مسبقا مسبقا، عبر التعلم ا لتعزيز. نظا على أن الترجمات التي تركتها أوامرنا المستفادة تحقق درجات بلو أعلى من النواتج المشفرة من اليسار إلى اليمين أو فك شفرة من قبل النظام المستفيد من منصيموف وآخرون. (2019) على مهمة الترجمة الألمانية والإنجليزية WMT'14. فيما يتعلق بالأمثلة بأقصى قدر من المصدر والمستهدف لمدة 30 من المهام الإنجليزية من DE-en و WMT'16 الإنجليزية الرومانية، فإن أمرنا المستفيد يتفوق على جميع أوامر الجيل المجهرية على ثلاثة من أربع أزواج لغوية. نقوم بالتحليل بعناية أنماط الطلب المستفادة من خلال التحليل النوعي والكمي. نظهر أن سياستنا تتبع عموما طلبا خارجيا إلى داخلي، توقع أكثر الأيسر والأيمن - معظم المناصب أولا، ثم تتحرك نحو المنتصف أثناء تخطي الكلمات الأقل أهمية في البداية. علاوة على ذلك، فإن السياسة تتوقع عادة مواقع لهيكل مؤسس بنزلي واحد في خطوات متتالية. نعتقد أن نتائجنا قد توفر المزيد من الأفكار حول آلية نماذج الجيل غير المعردة وتشجيع المزيد من البحث في هذا الاتجاه.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا