ترغب بنشر مسار تعليمي؟ اضغط هنا

تم تنفيذ العديد من الدراسات على الكشف عن الميزات اللغوية التي أسرتها بيرت. يتم تحقيق ذلك عادة من خلال تدريب مصنف تشخيصي على تمثيلات تم الحصول عليها من طبقات مختلفة من بيرت. ثم يتم تفسير دقة التصنيف اللاحقة على أنها قدرة النموذج في ترميز الممتلكات الل غوية المقابلة. على الرغم من تقديم رؤى، فقد تركت هذه الدراسات الدور المحتمل لتمثيلات الرمز المميز. في هذه الورقة، نقدم تحليلا أكثر متعمقا حول مساحة تمثيل بيرت بحثا عن مساحات فرعية متميزة وذات مغزى يمكن أن تفسر الأسباب الكامنة وراء هذه النتائج التحقيق. بناء على مجموعة من المهام التحقيق ومع مساعدة أساليب الإسناد، نوضح أن بيرت يميل إلى تشفير المعرفة الهادفة في تمثيلات رمزية محددة (والتي غالبا ما يتم تجاهلها في إعدادات التصنيف القياسية)، مما يسمح للنموذج بالكشف عن تشوهات النحوية والدلالية، ولل منفصلة بشكل مميز رقم النحوي والضواس الفرعية المتوترة.
يتم تدريب نماذج اللغة بشكل عام على تسلسل المدخلات القصيرة والمتقطعة، والتي تحد من قدرتها على استخدام معلومات مستوى الخطاب الموجودة في سياق طويل المدى لتحسين تنبؤاتها. أدت الجهود الأخيرة لتحسين كفاءة اهتمام الذات إلى انتشار نماذج لغة محول طويلة المدى، والتي يمكن أن تعالج تسلسل أطول بكثير من نماذج الماضي. ومع ذلك، تبقى الطرق التي تستفيد منها هذه النماذج من السياق الطويل المدى غير واضح. في هذه الورقة، نقوم بإجراء تحليل جيد الحبيبات من طرازات لغة محول طويلة المدى (بما في ذلك محول التوجيه، والذي يحقق حيرة من الفن الحيرة على مجموعة بيانات BG-19 المتسلسلة LM Transmark) التي تقبل المدخلات تسلسل يصل إلى 8K الرموز. نتائجنا تكشف عن توفير سياق طويل المدى (أي، خارج الرموز 2K السابقة) لهذه النماذج يحسن فقط تنبؤاتها على مجموعة صغيرة من الرموز (على سبيل المثال، تلك التي يمكن نسخها من السياق البعيد) ولا يساعد على الإطلاق لمهام التنبؤ على مستوى الجملة. أخيرا، نكتشف أن PG-19 تحتوي على مجموعة متنوعة من أنواع المستندات والمجالات المختلفة، وأن السياق الطويل المدى يساعد معظمها على الروايات الأدبية (بدلا من الكتب المدرسية أو المجلات).
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا