ترغب بنشر مسار تعليمي؟ اضغط هنا

تحتوي العديد من مجموعات بيانات NLP الجماعية على القطع الأثرية المنهجية التي تم تحديدها فقط بعد اكتمال جمع البيانات. يجب أن يسهل تحديد الهوية السابقة من هذه القضايا إنشاء بيانات تدريبية وتقييم عالية الجودة. نحاول ذلك عن طريق تقييم البروتوكولات التي يع مل فيها اللغويين الخبراء في الحلقة "أثناء جمع البيانات لتحديد هذه المشكلات ومعالجتها عن طريق ضبط تعليمات المهام والحوافز. باستخدام الاستدلال اللغوي الطبيعي كحالة اختبار، قارن ثلاثة بروتوكولات جمع البيانات: (1) بروتوكول أساسي مع عدم وجود تورط لغوي، (2) تدخل لغوي في حلقة مع قيود محدثة بشكل متطور على مهمة الكتابة، و (3) تمديد يضيف التفاعل المباشر بين اللغويين والملائقيين عبر غرفة الدردشة. نجد أن المشاركة اللغوية لا تؤدي إلى زيادة الدقة على مجموعات اختبار خارج المجال مقارنة مع خط الأساس، وإضافة غرفة من الدردشة ليس لها تأثير على البيانات. ومع ذلك، فإن المشاركة اللغوية تؤدي إلى بيانات تقييم أكثر تحديا ودقة أعلى في بعض مجموعات التحدي، مما يدل على فوائد دمج تحليل الخبراء أثناء جمع البيانات.
وقد حققت نماذج اللغة المدربة على نطاق واسع (LMS) أداء مستوى بشري على اتساع مهام فهم اللغة.ومع ذلك، فإن التقييمات فقط بناء على أداء المهام النهائي ألقت الضوء قليلا على الآلات القدرة الحقيقية في فهم اللغة والتفكير.في هذه الورقة، نسلط الضوء على أهمية تق ييم عملية التفكير الأساسية بالإضافة إلى الأداء النهائي.نحو هذا الهدف، نقدم المنطق المتدرج في الفيزياء البديهية (الرحلة)، وهناك مجموعة بيانات المنطق الرواية المنطقية مع شروح كثيفة تمكن التقييم متعدد المتدرج لعملية التفكير الآلات.تظهر نتائج التجريبية الخاصة بنا أنه في حين أن LMS كبيرة يمكن أن تحقق أداء متطورا للغاية، إلا أنهم يكافحون لدعم تنبؤاتهم بأدلة داعمة صالحة.ستحفز مجموعة بيانات الرحلة ونتائج أساسية لدينا لتحفيز تقييم يمكن التحقق منه من المنطق المنطقي وتسهيل البحوث المستقبلية نحو تطوير نماذج أفضل لغات وتفكير اللغة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا