تدابير التشابه هي أداة حيوية لفهم كيف تمثل النماذج اللغوية ولغة العملية. تم استخدام تدابير التشابه التمثيلية القياسية مثل تشابه التموين وجيب التغليح ومسافة Euclidean بنجاح في نماذج تضمين كلمة ثابتة لفهم كيفية الكتلة الكلمات في الفضاء الدلالي. في الآونة الأخيرة، تم تطبيق هذه التدابير على المدينات من النماذج السياقية مثل بيرت و GPT-2. في هذا العمل، ندعو إلى السؤال عن المعلوماتية لهذه التدابير لنماذج اللغة السياقية. نجد أن عددا صغيرا من الأبعاد المارقة، في كثير من الأحيان 1-3، يهيمن على هذه التدابير. علاوة على ذلك، نجد عدم تطابق مذهل بين الأبعاد التي تهيمن على تدابير التشابه والذين مهمون سلوك النموذج. نظهر أن تقنيات PostProcessing البسيطة مثل التقييس قادرة على تصحيح الأبعاد المارقة وكشف عن الجودة التمثيلية الكامنة. نقول أن المحاسبة للأبعاد المارقة أمر ضروري لأي تحليل مقرها في التشابه لنماذج اللغة السياقية.
Similarity measures are a vital tool for understanding how language models represent and process language. Standard representational similarity measures such as cosine similarity and Euclidean distance have been successfully used in static word embedding models to understand how words cluster in semantic space. Recently, these measures have been applied to embeddings from contextualized models such as BERT and GPT-2. In this work, we call into question the informativity of such measures for contextualized language models. We find that a small number of rogue dimensions, often just 1-3, dominate these measures. Moreover, we find a striking mismatch between the dimensions that dominate similarity measures and those which are important to the behavior of the model. We show that simple postprocessing techniques such as standardization are able to correct for rogue dimensions and reveal underlying representational quality. We argue that accounting for rogue dimensions is essential for any similarity-based analysis of contextual language models.
المراجع المستخدمة
https://aclanthology.org/
نحن التحقيق في نماذج لغة المحولات المدربة مسبقا لسد الاستدلال.نقوم أولا بالتحقيق في رؤوس الاهتمام الفردي في بيرت ومراقبة أن رؤساء الاهتمام في طبقات أعلى تركز بشكل بارز على سد العلاقات داخل المقارنة مع الطبقات المنخفضة والمتوسطة، وكذلك عدد قليل من رؤس
يبدو أن نجاح النماذج اللغوية المستندة إلى بنية المحولات لا يتعارض مع خصائص الخواص المتجاهية الملحوظة التي تعلمتها هذه النماذج.نقوم بحل هذا من خلال إظهار، خلافا للدراسات السابقة، أن التمثيل لا تشغل مخروطا ضيقا، ولكن الانجراف في اتجاهات مشتركة إلى حد م
في حين أن تمثيل اللغة المستندة إلى المتجهات من النماذج اللغوية المحددة قد حددت معيارا جديدا للعديد من مهام NLP، إلا أنه ليس هناك حساب كامل لأعمالهم الداخلية. على وجه الخصوص، ليس من الواضح تماما ما يتم التقاط جوانب بناء جملة مستوى الجملة من خلال هذه ا
أصبحت التمثيل التعلم للنص عبر الاحتمالات نموذج لغة على كوربوس كبيرة أصبح نقطة انطلاق قياسية لبناء أنظمة NLP. يقف هذا النهج على النقيض من السيارات الآلية، كما تم تدريبه على النص الخام، ولكن بهدف التعلم لترميز كل إدخال كجاغر يتيح إعادة الإعمار الكامل.
تولد نماذج اللغة الكبيرة (LM) نص بطلاقة بشكل ملحوظ ويمكن تكييفها بكفاءة عبر مهام NLP. قياس وضمان جودة النص الذي تم إنشاؤه من حيث السلامة أمر ضروري لنشر LMS في العالم الحقيقي؛ تحقيقا لهذه الغاية، غالبا ما يعتمد العمل السابق على التقييم التلقائي لسمية