ترغب بنشر مسار تعليمي؟ اضغط هنا

كم تم استهلاك القهوة خلال EMNLP 2019؟مشاكل Fermi: تحدي لسبب جديد ل AI

How much coffee was consumed during EMNLP 2019? Fermi Problems: A New Reasoning Challenge for AI

912   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتطلب العديد من مشاكل العالم الحقيقي التطبيق المشترك لقدرات التفكير المتعددة --- توظيف تجريدات مناسبة ومعرفة المنطقية والتليان الإبداعي لاستراتيجيات حل المشكلات. للمساعدة في تقدم أنظمة منظمة العفو الدولية تجاه هذه القدرات، نقترح تحديا جديدا لسبب جديد، أي مشاكل Fermi (FPS)، وهي أسئلة لا يمكن أن تكون إجاباتها تقديرية تقريبا تقريبا لأن حسابها الدقيق هو غير عملي أو مستحيل. على سبيل المثال، كم سيكون ارتفاع مستوى سطح البحر إذا ذابت كل الجليد في العالم؟ "FPS يستخدم عادة في الاختبارات والمقابلات لإظهار وتقييم قدرات التفكير الإبداعي للبشر. أن تفعل الشيء نفسه بالنسبة لأنظمة منظمة العفو الدولية، نقدم مجموعة بياناتين: 1) مجموعة من 1K العالم الحقيقي FPS المصادر من مسابقات وأولمبياد؛ و 2) بنك FPS الاصطناعي 10K من التعقيد المتوسط ​​لتكون بمثابة رمل للتحدي العالمي الحقيقي. بالإضافة إلى أزواج الإجابات السؤالية، تحتوي مجموعات البيانات على حلول مفصلة في شكل برنامج قابل للتنفيذ ودعم الحقائق، والمساعدة في الإشراف وتقييم الخطوات المتوسطة. نوضح أنه حتى النماذج اللغوية على نطاق واسع على نطاق واسع تؤدي بشكل سيئ في مجموعات البيانات، في متوسط ​​تقديرات الإجراءات التي يتم إيقافها من قبل أوامر من حجمها. وبالتالي فإن مساهمتنا هي بلورة العديد من مشاكل منظمة العفو الدولية غير المتولدة في تحدي واحد، ونحن نأمل أن تحفز المزيد من التقدم في بناء أنظمة يمكن أن يكون السبب.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

هدف هذا البحث إلى تحديد واقع الشراكة بين روسيا والاتحاد الأوروبي خلال الفترة 2000-2019، ومدى علاقة الناتج المحلي الإجمالي بالتجارة الخارجية ودرجة الانفتاح الاقتصادي، وقد تم الاعتماد على المنهج الوصفي التحليلي في تحليل أدوات وسياسة روسيا تجاه التبادل التجاري والشراكة مع الاتحاد الأوروبي. حيث تم الاعتماد على بيانات الناتج المحلي الإجمالي والصادرات والواردات والميزان التجاري في حساب متوسط الزيادة السنوية ومتوسط معدل النمو ودرجة الانكشاف الاقتصادي. وتمثلت أهمّ الاستنتاجات للبحث في سعي روسيا لبناء شراكة مع الاتحاد الأوروبي تقوم على التعاون المشترك والتعامل مع قضايا الأمن والجوار المشترك، وتعزيز التبادلات التجارية وتنويعها، وأنّ الاقتصاد الروسي ليس منكشفاً على الاقتصاد الأوروبي. ومن أهمّ التوصيات التي توصّل إليها البحث: ضرورة تنويع روسيا لصادراتها باتجاه الأسواق الأوروبية وعدم الاعتماد فقط على تصدير النفط والغاز الطبيعي.
تعتبر العلامات الموثوقة للتعبيرات الزمنية (TES، على سبيل المثال، كتاب طاولة في L'Osteria مساء الأحد) هو الشرط المركزي للمساعدين الصوتيين (VAS).ومع ذلك، هناك ندرة الموارد والأنظمة لنطاق VA، حيث يتم تدريب التقنيص الزمني المتاحين علنا فقط على مجالات مخت لفة إلى حد كبير، مثل الأخبار والنص السريري.نظرا لأن تكلفة التسجيل في مجموعات البيانات الكبيرة عبارة عن محظور، فإننا نحقق في المفاضلة بين البيانات والأداء داخل المجال في DA-Time، وهو Tagger الزمني الهجين للمجال الإنجليزي VA الذي يجمع بين الهندسة المعمارية العصبية للاعتراف القوي، مع محللباس te نومي.نجد أن التعلم النقل يقطع شوطا طويلا حتى مع وجود 25 جمل داخل المجال: يؤدي DA-Time في حالة الفن في مجال الأخبار، وتفوقه بشكل كبير على نطاق VA.
عند ضبط النماذج المحددة مسبقا للتصنيف، يستخدم الباحثون إما رأس نموذج عام أو موجه خاص بالتنبؤ.جادل مؤيدو المطالبات بأن المطالبات توفر طريقة لحقن إرشادات خاصة بالمهام، وهي مفيدة في أنظمة البيانات المنخفضة.نهدف إلى تقدير هذه الفائدة من خلال اختبار صارم للمطالبات في إعداد عادل: مقارنة بالضبط الدقيق المطالب والرأس في ظروف متساوية في العديد من المهام وأحجام البيانات.من خلال السيطرة على العديد من مصادر ميزة، نجد أن المطالبة تقدم بالفعل فائدة، وأن هذه الفائدة يمكن تحديدها لكل مهمة.تظهر النتائج أن المطالبة غالبا ما تستحق 100 ثانية من نقاط البيانات في المتوسط عبر مهام التصنيف.
على الرغم من نجاح أنظمة الحوار العصبي في تحقيق أداء عال في مجلس الإدارة، لا يمكنهم تلبية متطلبات المستخدمين في الممارسة العملية، بسبب ضعف مهارات المنطق. السبب الأساسي هو أن معظم نماذج الحوار العصبي تلتقط فقط المعلومات النحوية والدلية، ولكنها تفشل في نموذج الاتساق المنطقي بين محفوظات الحوار والاستجابة الناتجة. في الآونة الأخيرة، تم اقتراح مهمة حوار جديدة متعددة الدوران، لتسهيل أبحاث التفكير الحوار. ومع ذلك، هذه المهمة صعبة، لأن هناك اختلافات طفيفة فقط بين الاستجابة غير المنطقية وتاريخ الحوار. كيفية حل هذا التحدي فعال لا يزال يستحق الاستكشاف. تقترح هذه الورقة نموذج مقارنة غرامة (FCM) لمعالجة هذه المشكلة. مستوحاة من سلوك الإنسان في فهم القراءة، يقترح تركيز آلية المقارنة على الاختلافات الجميلة في تمثيل كل مرشح استجابة. على وجه التحديد، يتم مقارنة كل تمثيل مرشح بالسجل بأكمله للحصول على تمثيل تناسق التاريخ. علاوة على ذلك، تعتبر إشارات الاتساق بين كل مرشح وتاريخ مكبر الصوت في قيادة نموذج يفضل مرشحا متسقا منطقيا مع منطق تاريخ المتكلم. أخيرا، يتم توظيف تمثيلات الاتساق أعلاه لإخراج قائمة التصنيفات من ردود المرشحين لتفويض الحوار متعدد الدوران. النتائج التجريبية على مجموعة بيانات الحوار العامة تظهر أن طريقتنا تحصل على درجات أعلى تصنيف من النماذج الأساسية.
يمكن للبشر تعلم مهمة لغة جديدة بكفاءة مع عدد قليل فقط من الأمثلة، من خلال الاستفادة من معارفهم التي تم الحصول عليها عند تعلم المهام السابقة. في هذه الورقة، نستكشف ما إذا كان يمكن الحصول على قدرة تعميم المهام عبر المهام المباشرة، وتطبيقها بشكل أكبر عل ى بناء عدد قليل من المتعلمين لقلة طلقات عبر مهام NLP المتنوعة. نقدم Crossfit، وهي إعداد مشكلة في دراسة قدرة تعميم المهام عبر المهام، والتي توحد من أقسام المهام / غير المرئية، والوصول إلى البيانات أثناء مراحل التعلم المختلفة، وبروتوكولات التقييم. لإنشاء أقسام مهمة مختلفة / غير مرئية في CrossFit وتسهيل التحليل المتعمق، نقدم صالة الألعاب الرياضية ذات القليل من الرصاص NLP، مستودع 160 مهام NLP قليلة متنوعة تم إنشاؤها من مجموعات بيانات NLP مفتوحة الوصول وتحويلها إلى نص موحد لتنسيق النص. يكشف تحليلنا أن قدرة التعلم القليلة من التعلم على المهام غير المرئية يمكن تحسينها عبر مرحلة التعلم المنبع باستخدام مجموعة من المهام المشاهدة. نلاحظ أيضا أن اختيار مهام التعلم المنبع يمكن أن يؤثر بشكل كبير على أداء قليل الطلقات على المهام غير المرئية، ويطلب المزيد من التحليلات حول التشابه المهمة وقابلية النقل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا