وقد حققت نماذج اللغة المدربة على نطاق واسع (LMS) أداء مستوى بشري على اتساع مهام فهم اللغة.ومع ذلك، فإن التقييمات فقط بناء على أداء المهام النهائي ألقت الضوء قليلا على الآلات القدرة الحقيقية في فهم اللغة والتفكير.في هذه الورقة، نسلط الضوء على أهمية تقييم عملية التفكير الأساسية بالإضافة إلى الأداء النهائي.نحو هذا الهدف، نقدم المنطق المتدرج في الفيزياء البديهية (الرحلة)، وهناك مجموعة بيانات المنطق الرواية المنطقية مع شروح كثيفة تمكن التقييم متعدد المتدرج لعملية التفكير الآلات.تظهر نتائج التجريبية الخاصة بنا أنه في حين أن LMS كبيرة يمكن أن تحقق أداء متطورا للغاية، إلا أنهم يكافحون لدعم تنبؤاتهم بأدلة داعمة صالحة.ستحفز مجموعة بيانات الرحلة ونتائج أساسية لدينا لتحفيز تقييم يمكن التحقق منه من المنطق المنطقي وتسهيل البحوث المستقبلية نحو تطوير نماذج أفضل لغات وتفكير اللغة.
Large-scale, pre-trained language models (LMs) have achieved human-level performance on a breadth of language understanding tasks. However, evaluations only based on end task performance shed little light on machines' true ability in language understanding and reasoning. In this paper, we highlight the importance of evaluating the underlying reasoning process in addition to end performance. Toward this goal, we introduce Tiered Reasoning for Intuitive Physics (TRIP), a novel commonsense reasoning dataset with dense annotations that enable multi-tiered evaluation of machines' reasoning process. Our empirical results show that while large LMs can achieve high end performance, they struggle to support their predictions with valid supporting evidence. The TRIP dataset and our baseline results will motivate verifiable evaluation of commonsense reasoning and facilitate future research toward developing better language understanding and reasoning models.
المراجع المستخدمة
https://aclanthology.org/
منطق العموم الزمني هي مهمة صعبة لأنها تتطلب المعرفة الزمنية عادة غير صريحة في النص.في هذا العمل، نقترح نموذج فرقة لسبب المنظمات الزمنية.يعتمد نموذجنا على تمثيلات سياقية مدربة مسبقا من نماذج اللغة القائمة على المحولات (IE، Bert)، وعلى مجموعة متنوعة من
في هذه الورقة، نقترح تعريف وتعريفي من أنواع مختلفة من المحتوى النصي غير القياسي - يشار إليها عموما باسم الضوضاء "- في معالجة اللغة الطبيعية (NLP). في حين أن معالجة البيانات المسبقة هي بلا شك مهم بلا شك في NLP، خاصة عند التعامل مع المحتوى الذي تم إنشا
فهم اللغة المنطوقة، عادة بما في ذلك اكتشاف النوايا وملء الفتحات، هو مكون أساسي لبناء نظام حوار منطوق. تظهر الأبحاث الحديثة نتائج واعدة من خلال التعلم المشترك بين هذين المهامتين بناء على حقيقة أن ملء الفتحة والكشف عن النوايا تشارك المعرفة الدلالية. عل
الملخص على الرغم من التقدم المحرز في السنوات الأخيرة في معالجة تحديات فهم اللغة الطبيعية (NLU)، فإن غالبية هذا التقدم لا يزال يتركز على اللغات الغنية بالموارد مثل اللغة الإنجليزية. يركز هذا العمل على اللغة الفارسية، واحدة من اللغات المنطوقة على نطاق
تقدم هذه الورقة خط أنابيب التعلم شبه الإشرافه (SSL) على أساس إطار المعلم الطالب، الذي يزداد ملايين الأمثلة غير المستمرة لتحسين مهام فهم اللغة الطبيعية (NLU). نحن نبحث في سؤالين يتعلق باستخدام البيانات غير المسبقة في سياق الإنتاج SSL: 1) كيفية تحديد ع