نحتاج إلى التحدث عن تقسيم اختبار قطار Dev

نشر في جمعية اللغويات الحاسوبية ACL بتاريخ 2021 في مجال الذكاء الاصناعي والبحث باللغة English تحميل البحث

الملخص بالعربية

تقسيم اختبار القطار القياسي المستخدم المستخدمة لقياس نماذج متعددة ضد بعضها البعض تستخدم بشكل مجيئ في معالجة اللغة الطبيعية (NLP). في هذا الإعداد، يتم استخدام بيانات القطار لتدريب النموذج، مجموعة التطوير لتقييم إصدارات مختلفة من النماذج (النماذج) المقترحة أثناء التطوير، ومجموعة الاختبار لتأكيد الإجابات على سؤال (أسئلة) البحث الرئيسية. ومع ذلك، أدى إدخال الشبكات العصبية في NLP إلى استخدام مختلف لهذه الانشقاقات القياسية؛ غالبا ما تستخدم مجموعة التطوير في كثير من الأحيان لتحديد النماذج أثناء إجراء التدريب. لهذا السبب، يؤدي مقارنة إصدارات متعددة من نفس النموذج أثناء التطوير إلى تقدير في تقدير بيانات التطوير. كأحد، بدأ الناس بمقارنة كمية متزايدة من النماذج في بيانات الاختبار، مما يؤدي إلى زيادة السرعة والانتعاش "من مجموعات الاختبار الخاصة بنا. نقترح استخدام ضبط ضبط الوقت عند تطوير أساليب الشبكة العصبية، والتي يمكن استخدامها للاختيار النموذجي بحيث تتمكن مقارنة الإصدارات المختلفة من نموذج جديد بأمان على بيانات التطوير.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث