يبدو أن نجاح النماذج اللغوية المستندة إلى بنية المحولات لا يتعارض مع خصائص الخواص المتجاهية الملحوظة التي تعلمتها هذه النماذج.نقوم بحل هذا من خلال إظهار، خلافا للدراسات السابقة، أن التمثيل لا تشغل مخروطا ضيقا، ولكن الانجراف في اتجاهات مشتركة إلى حد ما.عند أي خطوة تدريبية، يتم تحديث جميع المدينات باستثناء تضمين الهدف الأساسي للحقيقة مع التدرج في نفس الاتجاه.يضاعف فوق مجموعة التدريب، وانجرف المدينات وتبادل المكونات الشائعة، حيث تجلى في شكلها في جميع النماذج التي اختبرناها تجريبيا.تظهر تجاربنا أن iSotropy يمكن استعادتها باستخدام تحول بسيط.
The success of language models based on the Transformer architecture appears to be inconsistent with observed anisotropic properties of representations learned by such models. We resolve this by showing, contrary to previous studies, that the representations do not occupy a narrow cone, but rather drift in common directions. At any training step, all of the embeddings except for the ground-truth target embedding are updated with gradient in the same direction. Compounded over the training set, the embeddings drift and share common components, manifested in their shape in all the models we have empirically tested. Our experiments show that isotropy can be restored using a simple transformation.
المراجع المستخدمة
https://aclanthology.org/
نحن التحقيق في نماذج لغة المحولات المدربة مسبقا لسد الاستدلال.نقوم أولا بالتحقيق في رؤوس الاهتمام الفردي في بيرت ومراقبة أن رؤساء الاهتمام في طبقات أعلى تركز بشكل بارز على سد العلاقات داخل المقارنة مع الطبقات المنخفضة والمتوسطة، وكذلك عدد قليل من رؤس
تدابير التشابه هي أداة حيوية لفهم كيف تمثل النماذج اللغوية ولغة العملية. تم استخدام تدابير التشابه التمثيلية القياسية مثل تشابه التموين وجيب التغليح ومسافة Euclidean بنجاح في نماذج تضمين كلمة ثابتة لفهم كيفية الكتلة الكلمات في الفضاء الدلالي. في الآو
أصبحت التمثيل التعلم للنص عبر الاحتمالات نموذج لغة على كوربوس كبيرة أصبح نقطة انطلاق قياسية لبناء أنظمة NLP. يقف هذا النهج على النقيض من السيارات الآلية، كما تم تدريبه على النص الخام، ولكن بهدف التعلم لترميز كل إدخال كجاغر يتيح إعادة الإعمار الكامل.
تولد نماذج اللغة الكبيرة (LM) نص بطلاقة بشكل ملحوظ ويمكن تكييفها بكفاءة عبر مهام NLP. قياس وضمان جودة النص الذي تم إنشاؤه من حيث السلامة أمر ضروري لنشر LMS في العالم الحقيقي؛ تحقيقا لهذه الغاية، غالبا ما يعتمد العمل السابق على التقييم التلقائي لسمية
تركز هذه الورقة على تنظيف البيانات كجزء من إجراء مسبق مسبق تطبق على البيانات النصية المستردة من الويب. على الرغم من أن أهمية هذه المرحلة المبكرة في مشروع باستخدام أساليب NLP غالبا ما يسلط الضوء عليها من قبل الباحثون، فإن التفاصيل، والمبادئ والتقنيات