نماذج اللغة العصبية عادة ما تقوم بإدخال نص إدخال في وحدات فرعية لتحقيق مفردات مفتوحة. يتمثل النهج القياسي في استخدام التزعزيات الكنسي واحد في كل من القطار ووقت الاختبار. نقترح أن هذا النهج غير مرضي وقد يؤدي إلى اختناق تقييمنا لأداء نموذج اللغة. يتجاهل استخدام أفضل التزامات واحدا فقط عدم اليقين Tokeniser على التزامات البديلة، والتي قد تؤذي أداء نموذج خارج النطاق. في هذه الورقة، نجادل بأنه بدلا من ذلك، يجب تقييم نماذج اللغة على احتمال حدوثها الهامشي من التصعيش. قارن المقدرين المختلفة للحياة الهامشية بناء على أخذ العينات، وإظهار أنه من الممكن تقدير الاحتمال الهامشي لعدد يمكن التحكم فيه من العينات. ثم قمنا بتقييم نموذج لغة محدود مسبقا على كل من أفضل التزامات الواحدة والحيرة الهامشية، وإظهار أن الحيرة الهامشية يمكن أن تكون أفضل بكثير من الأفضل، خاصة على البيانات خارج المجال. نحن نربط هذا الاختلاف في الحيرة إلى عدم اليقين Tokeniser كما تقاس بواسطة Tokeniser Entropy. نناقش بعض الآثار المترتبة على نتائجنا لتدريب وتقييم نموذج اللغة، لا سيما فيما يتعلق بتروكيات القمامة.
Neural language models typically tokenise input text into sub-word units to achieve an open vocabulary. The standard approach is to use a single canonical tokenisation at both train and test time. We suggest that this approach is unsatisfactory and may bottleneck our evaluation of language model performance. Using only the one-best tokenisation ignores tokeniser uncertainty over alternative tokenisations, which may hurt model out-of-domain performance. In this paper, we argue that instead, language models should be evaluated on their marginal likelihood over tokenisations. We compare different estimators for the marginal likelihood based on sampling, and show that it is feasible to estimate the marginal likelihood with a manageable number of samples. We then evaluate a pretrained language model on both the one-best-tokenisation and marginal perplexities, and show that the marginal perplexity can be significantly better than the one best, especially on out-of-domain data. We link this difference in perplexity to the tokeniser uncertainty as measured by tokeniser entropy. We discuss some implications of our results for language model training and evaluation, particularly with regard to tokenisation robustness.
References used
https://aclanthology.org/
Most of the recent Natural Language Processing(NLP) studies are based on the Pretrain-Finetuning Approach (PFA), but in small and medium-sized enterprises or companies with insufficient hardware there are many limitations to servicing NLP application
The limits of applicability of vision-and language models are defined by the coverage of their training data. Tasks like vision question answering (VQA) often require commonsense and factual information beyond what can be learned from task-specific d
Vector representations have become a central element in semantic language modelling, leading to mathematical overlaps with many fields including quantum theory. Compositionality is a core goal for such representations: given representations for wet'
Intelligent agents that are confronted with novel concepts in situated environments will need to ask their human teammates questions to learn about the physical world. To better understand this problem, we need data about asking questions in situated
Basalt is classified as a isotropic rock in according to its mechanical
properties. But gypsum is considered isotropic transverse rock . coming
the mechanical parameters values joins practice direction of parameters
.
By using a nondestructive me