أداء التحقق من الصحة المتوقع وتقدير الحد الأقصى للمتغير العشوائي


الملخص بالعربية

غالبا ما يتم دعم الأبحاث في NLP من خلال النتائج التجريبية، وقد يؤدي الإبلاغ المحسن لهذه النتائج إلى فهم أفضل وأكثر استنساخا. في هذه الورقة، نحلل ثلاثة مقدرين إحصائي لأداء التحقق من الصحة المتوقع، وهي أداة تستخدم لأداء الإبلاغ (على سبيل المثال، الدقة) كدالة للميزانية الحاسوبية (على سبيل المثال، عدد تجارب ضبط HyperParameter). عندما يقوم العمل السابق بتحليل مثل هذه المقدرين يركز على التحيز، فإننا ندرس أيضا التباين ويعني الخطأ التربيعي (MSE). في كل من السيناريوهات الاصطناعية والواقعية، نقوم بتقييم ثلاثة مقدرين والعثور على مقدر غير متحيز لديه أعلى التباين، ومقدر أصغر البتان لديه أكبر تحيز؛ يقيم أصغر MSE يضرب توازن بين التحيز والتباين، وعرض مفاضلة الكلاسيكية من تباين التحيز. نحن نستخدم أداء التحقق من الصحة المتوقع للمقارنة بين النماذج المختلفة، وتحليل مدى متكرر كل مقدر يؤدي إلى رسم استنتاجات غير صحيحة حول أي نماذج تؤدي إلى الأفضل. نجد أن المقدرين المتحيزين تؤدي إلى أقل استنتاجات غير صحيحة، تلمحون بأهمية التقليل من التباين و MSE.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث