في مهام NLP ذات المستوى البشري، مثل التنبؤ بالصحة العقلية أو الشخصية أو التركيبة السكانية، غالبا ما يكون عدد الملاحظات أصغر من أحجام الحالة الخفية 768+ في كل طبقة داخل نماذج اللغة الحديثة القائمة على المحولات، مما يحد من القدرة على النفوذ بشكل فعال محولات. هنا، نحن نقدم دراسة منهجية حول دور أساليب خفض البعد (تحليل المكونات الرئيسية وتقنيات العظام أو الترميز التلقائي متعدد الطبقات) بالإضافة إلى أبعاد مضاعفات تضمين وأحجام العينات كدالة للأداء التنبؤي. نجد أولا أن النماذج الكبيرة التي تؤديها بشكل جيد مع كمية محدودة من البيانات تشكل صعوبة كبيرة يمكن التغلب عليها مع نظام الحد من البعد المدرب مسبقا. يحقق روبرتا باستمرار الأداء الأعلى في المهام على المستوى البشري، مع إعطاء PCA فائدة على أساليب الخلل الأخرى في التعامل بشكل أفضل للمستخدمين الذين يكتبون نصوص أطول. أخيرا، نلاحظ أن غالبية المهام تحقق نتائج مماثلة لأفضل أداء مع 1/12 فقط من أبعاد التضمين.
In human-level NLP tasks, such as predicting mental health, personality, or demographics, the number of observations is often smaller than the standard 768+ hidden state sizes of each layer within modern transformer-based language models, limiting the ability to effectively leverage transformers. Here, we provide a systematic study on the role of dimension reduction methods (principal components analysis, factorization techniques, or multi-layer auto-encoders) as well as the dimensionality of embedding vectors and sample sizes as a function of predictive performance. We first find that fine-tuning large models with a limited amount of data pose a significant difficulty which can be overcome with a pre-trained dimension reduction regime. RoBERTa consistently achieves top performance in human-level tasks, with PCA giving benefit over other reduction methods in better handling users that write longer texts. Finally, we observe that a majority of the tasks achieve results comparable to the best performance with just 1/12 of the embedding dimensions.
References used
https://aclanthology.org/
We outline the Great Misalignment Problem in natural language processing research, this means simply that the problem definition is not in line with the method proposed and the human evaluation is not in line with the definition nor the method. We st
Abstract This study carries out a systematic intrinsic evaluation of the semantic representations learned by state-of-the-art pre-trained multimodal Transformers. These representations are claimed to be task-agnostic and shown to help on many downstr
The research aims to estimate the effect of sample size on the statistical test
power (t) for one sample, two interrelated samples, two independent samples,
and on the statistical test power of one-way analysis of variance test (F) to
compare the
This paper reviews and summarizes human evaluation practices described in 97 style transfer papers with respect to three main evaluation aspects: style transfer, meaning preservation, and fluency. In principle, evaluations by human raters should be t
The research aims to develop some formulas of sample size and characterization and comparison among themselves to determine the best formula of formulas to calculate the sample size and the creation of a modified reflected well on the sample size, in