تقسيم اختبار القطار القياسي المستخدم المستخدمة لقياس نماذج متعددة ضد بعضها البعض تستخدم بشكل مجيئ في معالجة اللغة الطبيعية (NLP). في هذا الإعداد، يتم استخدام بيانات القطار لتدريب النموذج، مجموعة التطوير لتقييم إصدارات مختلفة من النماذج (النماذج) المقترحة أثناء التطوير، ومجموعة الاختبار لتأكيد الإجابات على سؤال (أسئلة) البحث الرئيسية. ومع ذلك، أدى إدخال الشبكات العصبية في NLP إلى استخدام مختلف لهذه الانشقاقات القياسية؛ غالبا ما تستخدم مجموعة التطوير في كثير من الأحيان لتحديد النماذج أثناء إجراء التدريب. لهذا السبب، يؤدي مقارنة إصدارات متعددة من نفس النموذج أثناء التطوير إلى تقدير في تقدير بيانات التطوير. كأحد، بدأ الناس بمقارنة كمية متزايدة من النماذج في بيانات الاختبار، مما يؤدي إلى زيادة السرعة والانتعاش "من مجموعات الاختبار الخاصة بنا. نقترح استخدام ضبط ضبط الوقت عند تطوير أساليب الشبكة العصبية، والتي يمكن استخدامها للاختيار النموذجي بحيث تتمكن مقارنة الإصدارات المختلفة من نموذج جديد بأمان على بيانات التطوير.
Standard train-dev-test splits used to benchmark multiple models against each other are ubiquitously used in Natural Language Processing (NLP). In this setup, the train data is used for training the model, the development set for evaluating different versions of the proposed model(s) during development, and the test set to confirm the answers to the main research question(s). However, the introduction of neural networks in NLP has led to a different use of these standard splits; the development set is now often used for model selection during the training procedure. Because of this, comparing multiple versions of the same model during development leads to overestimation on the development data. As an effect, people have started to compare an increasing amount of models on the test data, leading to faster overfitting and expiration'' of our test sets. We propose to use a tune-set when developing neural network methods, which can be used for model picking so that comparing the different versions of a new model can safely be done on the development data.
المراجع المستخدمة
https://aclanthology.org/
يؤثر عرض الحزمة المتاحة تأثيراً لا يستهان به في أداء كثير من التطبيقات التي تعمل عبر الشبكات الحاسوبية، خاصة تلك الحساسة للتأخير مثل نقل الصوت و الصورة عبر الإنترنت. لذلك اهتم العديد من الباحثين بقياس عرض الحزمة المتاحة، و تقديم
أدوات عملية لقياسه.
تمكين أنظمة حوار المجال المفتوح لطرح أسئلة توضيحية عند الاقتضاء هو اتجاه مهم لتحسين جودة استجابة النظام.وهي، بالنسبة للحالات عندما يكون طلب المستخدم غير محددا لنظام محادثة لتوفير إجابة على الفور، فمن المستحسن طرح سؤال توضيحي لزيادة فرص استرداد إجابة
نقدم تحليل خطأ في Taggers UPOS العصبية لتقييم سبب استخدام علامات الذهب هذه المساهمة الإيجابية الكبيرة في تحليل الأداء أثناء استخدام UPOS المتوقع إما للأداء أو يقدم تحسنا ضئيلا.نقوم أيضا بتقييم ما يتعلمه محلل التبعية العصبية ضمنيا حول أنواع الكلمات وك
نلاحظ مثالا على التحيز المستحث بين الجنسين في تطبيق في النهر، على الرغم من عدم وجود كلمات جنسانية صريحة في حالات الاختبار.نحن نقدم مجموعة اختبار، Sowinobias، لغرض قياس مثل هذه التحيز الجنساني الكامن في أنظمة حل السلاسة.نقيم أداء أساليب الدخل الحالية
حاولنا من خلال هذه الدراسة المقارنة بين حساسية و نوعية اختبار شرائح rK39 و اختبار التـراص
المباشر في تقصي وجود داء الليشمانية الحشوي في بعض القرى الموبوءة في جنوب سـورية، و ذلـك
لاعتماد الاختبار الأفضل و الأسهل في الدراسات الوبائية كمؤشر لتقصي وجود