تقسيم اختبار القطار القياسي المستخدم المستخدمة لقياس نماذج متعددة ضد بعضها البعض تستخدم بشكل مجيئ في معالجة اللغة الطبيعية (NLP). في هذا الإعداد، يتم استخدام بيانات القطار لتدريب النموذج، مجموعة التطوير لتقييم إصدارات مختلفة من النماذج (النماذج) المقترحة أثناء التطوير، ومجموعة الاختبار لتأكيد الإجابات على سؤال (أسئلة) البحث الرئيسية. ومع ذلك، أدى إدخال الشبكات العصبية في NLP إلى استخدام مختلف لهذه الانشقاقات القياسية؛ غالبا ما تستخدم مجموعة التطوير في كثير من الأحيان لتحديد النماذج أثناء إجراء التدريب. لهذا السبب، يؤدي مقارنة إصدارات متعددة من نفس النموذج أثناء التطوير إلى تقدير في تقدير بيانات التطوير. كأحد، بدأ الناس بمقارنة كمية متزايدة من النماذج في بيانات الاختبار، مما يؤدي إلى زيادة السرعة والانتعاش "من مجموعات الاختبار الخاصة بنا. نقترح استخدام ضبط ضبط الوقت عند تطوير أساليب الشبكة العصبية، والتي يمكن استخدامها للاختيار النموذجي بحيث تتمكن مقارنة الإصدارات المختلفة من نموذج جديد بأمان على بيانات التطوير.
Standard train-dev-test splits used to benchmark multiple models against each other are ubiquitously used in Natural Language Processing (NLP). In this setup, the train data is used for training the model, the development set for evaluating different versions of the proposed model(s) during development, and the test set to confirm the answers to the main research question(s). However, the introduction of neural networks in NLP has led to a different use of these standard splits; the development set is now often used for model selection during the training procedure. Because of this, comparing multiple versions of the same model during development leads to overestimation on the development data. As an effect, people have started to compare an increasing amount of models on the test data, leading to faster overfitting and expiration'' of our test sets. We propose to use a tune-set when developing neural network methods, which can be used for model picking so that comparing the different versions of a new model can safely be done on the development data.
References used
https://aclanthology.org/
Available bandwidth has a significant impact on the performance of many applications that
run over computer networks. Therefore, many researchers pay attention to this issue through
the study of the possibility of measuring the available bandwidth,
Enabling open-domain dialogue systems to ask clarifying questions when appropriate is an important direction for improving the quality of the system response. Namely, for cases when a user request is not specific enough for a conversation system to p
We present an error analysis of neural UPOS taggers to evaluate why using gold tags has such a large positive contribution to parsing performance while using predicted UPOS either harms performance or offers a negligible improvement. We also evaluate
We observe an instance of gender-induced bias in a downstream application, despite the absence of explicit gender words in the test cases. We provide a test set, SoWinoBias, for the purpose of measuring such latent gender bias in coreference resoluti
In the present study, we tried to compare the sensitivity and the specificity
of the rK39 strips and DAT, to serodiagnose the visceral leishmaniasis disease
in some endemic villages in south of Syria, in order to apply the best and the
easy test i