ترغب بنشر مسار تعليمي؟ اضغط هنا

يتم تدريب نماذج اللغة بشكل عام على تسلسل المدخلات القصيرة والمتقطعة، والتي تحد من قدرتها على استخدام معلومات مستوى الخطاب الموجودة في سياق طويل المدى لتحسين تنبؤاتها. أدت الجهود الأخيرة لتحسين كفاءة اهتمام الذات إلى انتشار نماذج لغة محول طويلة المدى، والتي يمكن أن تعالج تسلسل أطول بكثير من نماذج الماضي. ومع ذلك، تبقى الطرق التي تستفيد منها هذه النماذج من السياق الطويل المدى غير واضح. في هذه الورقة، نقوم بإجراء تحليل جيد الحبيبات من طرازات لغة محول طويلة المدى (بما في ذلك محول التوجيه، والذي يحقق حيرة من الفن الحيرة على مجموعة بيانات BG-19 المتسلسلة LM Transmark) التي تقبل المدخلات تسلسل يصل إلى 8K الرموز. نتائجنا تكشف عن توفير سياق طويل المدى (أي، خارج الرموز 2K السابقة) لهذه النماذج يحسن فقط تنبؤاتها على مجموعة صغيرة من الرموز (على سبيل المثال، تلك التي يمكن نسخها من السياق البعيد) ولا يساعد على الإطلاق لمهام التنبؤ على مستوى الجملة. أخيرا، نكتشف أن PG-19 تحتوي على مجموعة متنوعة من أنواع المستندات والمجالات المختلفة، وأن السياق الطويل المدى يساعد معظمها على الروايات الأدبية (بدلا من الكتب المدرسية أو المجلات).
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا