غالبا ما يتم دعم الأبحاث في NLP من خلال النتائج التجريبية، وقد يؤدي الإبلاغ المحسن لهذه النتائج إلى فهم أفضل وأكثر استنساخا. في هذه الورقة، نحلل ثلاثة مقدرين إحصائي لأداء التحقق من الصحة المتوقع، وهي أداة تستخدم لأداء الإبلاغ (على سبيل المثال، الدقة) كدالة للميزانية الحاسوبية (على سبيل المثال، عدد تجارب ضبط HyperParameter). عندما يقوم العمل السابق بتحليل مثل هذه المقدرين يركز على التحيز، فإننا ندرس أيضا التباين ويعني الخطأ التربيعي (MSE). في كل من السيناريوهات الاصطناعية والواقعية، نقوم بتقييم ثلاثة مقدرين والعثور على مقدر غير متحيز لديه أعلى التباين، ومقدر أصغر البتان لديه أكبر تحيز؛ يقيم أصغر MSE يضرب توازن بين التحيز والتباين، وعرض مفاضلة الكلاسيكية من تباين التحيز. نحن نستخدم أداء التحقق من الصحة المتوقع للمقارنة بين النماذج المختلفة، وتحليل مدى متكرر كل مقدر يؤدي إلى رسم استنتاجات غير صحيحة حول أي نماذج تؤدي إلى الأفضل. نجد أن المقدرين المتحيزين تؤدي إلى أقل استنتاجات غير صحيحة، تلمحون بأهمية التقليل من التباين و MSE.
Research in NLP is often supported by experimental results, and improved reporting of such results can lead to better understanding and more reproducible science. In this paper we analyze three statistical estimators for expected validation performance, a tool used for reporting performance (e.g., accuracy) as a function of computational budget (e.g., number of hyperparameter tuning experiments). Where previous work analyzing such estimators focused on the bias, we also examine the variance and mean squared error (MSE). In both synthetic and realistic scenarios, we evaluate three estimators and find the unbiased estimator has the highest variance, and the estimator with the smallest variance has the largest bias; the estimator with the smallest MSE strikes a balance between bias and variance, displaying a classic bias-variance tradeoff. We use expected validation performance to compare between different models, and analyze how frequently each estimator leads to drawing incorrect conclusions about which of two models performs best. We find that the two biased estimators lead to the fewest incorrect conclusions, which hints at the importance of minimizing variance and MSE.
المراجع المستخدمة
https://aclanthology.org/
نقدم هذا بموجبه تقديمنا إلى المهمة المشتركة في تقييم الدقة في مؤتمر INLG 2021.يعتمد بروتوكول التقييم لدينا على ثلاثة مكونات رئيسية؛القواعد والصفوف النصية المصنفة التي تعلق مسبقا على مجموعة البيانات، وهو عبقري بشري يتحقق من التوضيح المسبق، وواجهة الوي
تعاني الشبكات اللاسلكية من الضياع المتكرر للرزم لأسباب عديدة منها التداخلات و التصادم و الخفوت، مما يجعل من الوسط اللاسلكي وسط غير موثوق لنقل البيانات. أبرز طرق ضمان وثوقية النقل عبر هذا الوسط هي باستخدام بروتوكول التحكم بالنقل (TCP) و بروتوكول إعادة
لعقود من الزمن، اعتمدت البحوث المنشورة في مجال التحقق الآلي من صحة التواقيع على استخدام مجموعة خصائص واحدة. اختار بعض الباحثين مجموعة الخصائص هذه اعتماداً على خبرتهم في هذا المجال، و اختارها آخرون اعتماداً على خوارزميات انتقاء الخصائص التي تستطيع اخت
تمنح نماذج اللغة العصبية المدربة مسبقا أداء عال في مهام الاستدلال اللغوي (NLI).ولكن ما إذا كانوا يفهمون فعلا معنى التسلسلات المصنعة لا يزال غير واضح.نقترح جناح اختبار التشخيص الجديد الذي يسمح بتقييم ما إذا كانت مجموعة البيانات تشكل اختبارا جيدا لتقيي
أثناء النظر في الأوقات الطبيعية في وثائق الأمن الغذائي، وجدنا أن التعليق التوضيحي التركيبي للتوسع في الوقت نفسه يتطلب العديد من التعليقات التوضيحية شبه المكررة للحصول على الدلالات الصحيحة للتعبيرات مثل 7 نوفمبر إلى 11 2021. للحد من هذه المشكلة، نحناس