تتطلب العديد من مشاكل العالم الحقيقي التطبيق المشترك لقدرات التفكير المتعددة --- توظيف تجريدات مناسبة ومعرفة المنطقية والتليان الإبداعي لاستراتيجيات حل المشكلات. للمساعدة في تقدم أنظمة منظمة العفو الدولية تجاه هذه القدرات، نقترح تحديا جديدا لسبب جديد، أي مشاكل Fermi (FPS)، وهي أسئلة لا يمكن أن تكون إجاباتها تقديرية تقريبا تقريبا لأن حسابها الدقيق هو غير عملي أو مستحيل. على سبيل المثال، كم سيكون ارتفاع مستوى سطح البحر إذا ذابت كل الجليد في العالم؟ "FPS يستخدم عادة في الاختبارات والمقابلات لإظهار وتقييم قدرات التفكير الإبداعي للبشر. أن تفعل الشيء نفسه بالنسبة لأنظمة منظمة العفو الدولية، نقدم مجموعة بياناتين: 1) مجموعة من 1K العالم الحقيقي FPS المصادر من مسابقات وأولمبياد؛ و 2) بنك FPS الاصطناعي 10K من التعقيد المتوسط لتكون بمثابة رمل للتحدي العالمي الحقيقي. بالإضافة إلى أزواج الإجابات السؤالية، تحتوي مجموعات البيانات على حلول مفصلة في شكل برنامج قابل للتنفيذ ودعم الحقائق، والمساعدة في الإشراف وتقييم الخطوات المتوسطة. نوضح أنه حتى النماذج اللغوية على نطاق واسع على نطاق واسع تؤدي بشكل سيئ في مجموعات البيانات، في متوسط تقديرات الإجراءات التي يتم إيقافها من قبل أوامر من حجمها. وبالتالي فإن مساهمتنا هي بلورة العديد من مشاكل منظمة العفو الدولية غير المتولدة في تحدي واحد، ونحن نأمل أن تحفز المزيد من التقدم في بناء أنظمة يمكن أن يكون السبب.
Many real-world problems require the combined application of multiple reasoning abilities---employing suitable abstractions, commonsense knowledge, and creative synthesis of problem-solving strategies. To help advance AI systems towards such capabilities, we propose a new reasoning challenge, namely Fermi Problems (FPs), which are questions whose answers can only be approximately estimated because their precise computation is either impractical or impossible. For example, How much would the sea level rise if all ice in the world melted?'' FPs are commonly used in quizzes and interviews to bring out and evaluate the creative reasoning abilities of humans. To do the same for AI systems, we present two datasets: 1) A collection of 1k real-world FPs sourced from quizzes and olympiads; and 2) a bank of 10k synthetic FPs of intermediate complexity to serve as a sandbox for the harder real-world challenge. In addition to question-answer pairs, the datasets contain detailed solutions in the form of an executable program and supporting facts, helping in supervision and evaluation of intermediate steps. We demonstrate that even extensively fine-tuned large-scale language models perform poorly on these datasets, on average making estimates that are off by two orders of magnitude. Our contribution is thus the crystallization of several unsolved AI problems into a single, new challenge that we hope will spur further advances in building systems that can reason.
المراجع المستخدمة
https://aclanthology.org/
هدف هذا البحث إلى تحديد واقع الشراكة بين روسيا والاتحاد الأوروبي خلال الفترة 2000-2019، ومدى علاقة الناتج المحلي الإجمالي بالتجارة الخارجية ودرجة الانفتاح الاقتصادي، وقد تم الاعتماد على المنهج الوصفي التحليلي في تحليل أدوات وسياسة روسيا تجاه التبادل
تعتبر العلامات الموثوقة للتعبيرات الزمنية (TES، على سبيل المثال، كتاب طاولة في L'Osteria مساء الأحد) هو الشرط المركزي للمساعدين الصوتيين (VAS).ومع ذلك، هناك ندرة الموارد والأنظمة لنطاق VA، حيث يتم تدريب التقنيص الزمني المتاحين علنا فقط على مجالات مخت
عند ضبط النماذج المحددة مسبقا للتصنيف، يستخدم الباحثون إما رأس نموذج عام أو موجه خاص بالتنبؤ.جادل مؤيدو المطالبات بأن المطالبات توفر طريقة لحقن إرشادات خاصة بالمهام، وهي مفيدة في أنظمة البيانات المنخفضة.نهدف إلى تقدير هذه الفائدة من خلال اختبار صارم
على الرغم من نجاح أنظمة الحوار العصبي في تحقيق أداء عال في مجلس الإدارة، لا يمكنهم تلبية متطلبات المستخدمين في الممارسة العملية، بسبب ضعف مهارات المنطق. السبب الأساسي هو أن معظم نماذج الحوار العصبي تلتقط فقط المعلومات النحوية والدلية، ولكنها تفشل في
يمكن للبشر تعلم مهمة لغة جديدة بكفاءة مع عدد قليل فقط من الأمثلة، من خلال الاستفادة من معارفهم التي تم الحصول عليها عند تعلم المهام السابقة. في هذه الورقة، نستكشف ما إذا كان يمكن الحصول على قدرة تعميم المهام عبر المهام المباشرة، وتطبيقها بشكل أكبر عل