كيف يمكننا أن نعرف متى تعرف نماذج اللغة؟على معايرة نماذج اللغة للحصول على السؤال الرد


الملخص بالعربية

أظهرت الأعمال التجريدية الأخيرة أن نماذج اللغة (LM) تلتقط أنواعا مختلفة من المعرفة فيما يتعلق بالحقائق أو الحس السليم. ومع ذلك، نظرا لأن أي نموذج مثالي، إلا أنهم لا يزالون يفشلون في تقديم إجابات مناسبة في العديد من الحالات. في هذه الورقة، نطرح السؤال، كيف يمكننا أن نعرف متى تعرف نماذج اللغة، بثقة، الإجابة على استعلام معين؟ "نحن ندرس هذا السؤال من وجهة نظر المعايرة، وخاصية الاحتمالات المتوقعة للنموذج الاحتمالية في الواقع يجري ارتباطا جيدا مع احتمالات صحة. نحن ندرس ثلاث نماذج تولئة قوية --- T5، بارت، و GPT-2 --- ودراسة ما إذا كانت احتمالاتهم على مهام ضمان الجودة معا معايرة بشكل جيد، والعثور على الجواب لا أحد غير مؤكد نسبيا. ثم نقوم بعد ذلك بفحص الأساليب لمعايرة هذه النماذج لجعل ثقتهم عشرات ترتبط بتحسن مع احتمال صحة الصواب من خلال التعديل الدقيق أو التعديل أو تعديل المخرجات أو المدخلات المتوقعة. تجارب مجموعة متنوعة من مجموعات البيانات توضح فعالية أساليبنا. كما نقوم بإجراء تحليل لدراسة نقاط القوة والقيود المتمثلة في هذه الأساليب، وإلقاء الضوء على المزيد من التحسينات التي قد يتم إجراؤها في أساليب معايرة LMS. لقد أصدرنا التعليمات البرمجية في https://github.com/jzbjyb/lm-calibration.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث