ترغب بنشر مسار تعليمي؟ اضغط هنا

ريكا: تقييم قدرات الاستدلال القوي على أساس البديهيات المنطقية

RICA: Evaluating Robust Inference Capabilities Based on Commonsense Axioms

229   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

حققت نماذج اللغة المدربة مسبقا (PTLMS) أداء مثير للإعجاب في معايير استنتاج المنطقية، لكن قدرتها على استخدام المناولة لإستنساخ قوي، وهو أمر ضروري للاتصالات الفعالة مع البشر،. في السعي لتحقيق الاتصالات السائل للاتصالات الإنسانية، نقترح تحديا جديدا، ريكا: الاستدلال القوي باستخدام بديهيات المنطقية، التي تقيم الاستدلال القوي المنزلي على الرغم من الاضطرابات النصية. لتوليد بيانات لهذا التحدي، نقوم بتطوير إجراءات منهجية وقابلة للتطوير باستخدام قواعد المعرفة المنطقية والتحقيق PTLMS عبر إعدادين تقييمين مختلفين. تبين تجارب واسعة النطاق على مجموعات التحقيق التي تم إنشاؤها مع أكثر من 10K عبارات أن ptlms لا تؤدي أفضل من التخمين العشوائي على إعداد اللقطة الصفرية، وتتأثر بشدة بالتحيزات الإحصائية، وهي ليست قوية لهجمات الاضطراب. نجد أيضا أن الضبط الدقيق حول تصريحات مماثلة تقدم مكاسب محدودة، حيث لا تزال PTLMS تفشل في تعميم الاستدلالات غير المرئية. يعرض مؤشرنا الجديد واسع النطاق فجوة كبيرة بين PTLMS وفهم لغة الإنسان ويقدم تحديا جديدا ل PTLMS لإظهار العمولة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نظرا لعدد كبير من الكيانات في قواعد المعرفة الطبية الحيوية، فإن جزء بسيط من الكيانات الصغيرة فقط بيانات التدريب المسمى. وهذا يستلزم كيان ربط النماذج التي يمكن أن تصل إلى ربط تذكر الكيانات غير المرئية باستخدام التمثيلات المستفادة للكيانات. يتذكر كل من هما السابقة بشكل مستقل، وتجاهل العلاقات داخل الوثائق وعبر الوثائق بين الكيان. يمكن أن تكون هذه العلاقات مفيدة للغاية لربط الذكور في النص الطبي الطبيعي حيث غالبا ما تذكر القرارات ذات الصلة وجود نموذج عام أو متخصص للغاية. في هذه الورقة، نقدم نموذجا يمكن فيه إلقاء النموذج الذي يمكن فيه اتخاذ قرارات مرتبطة فقط بالربط بالكيان الأساسي المعرفي ولكن أيضا من خلال تجميع تذكر معا عبر التجميع والاشتراك في ربط التوقعات. في تجارب في أكبر مجموعة بيانات بيئية متوفرة للجمهور، نحسن أفضل التنبؤ المستقل للكيان الذي يربط بمقدار 3.0 نقطة من الدقة، ويحسن نموذج الاستدلال القائم على التجميع كيان يربط بمقدار 2.3 نقطة.
أظهرت الأساليب الحديثة بناء على نماذج اللغة المدربين مسبقا أداء مشغل قوي على المنطق المنطقي.ومع ذلك، فإنها تعتمد على شروح بيانات باهظة الثمن والتدريب المستهلكة للوقت.وهكذا، نحن نركز على التفكير المنطقي غير المنشأ.نظهر فعالية استخدام إطار عمل مشترك، ا ستنتاج اللغة الطبيعية (NLI)، لحل مهام المنطق المنطقي متنوعة.من خلال الاستفادة من نقل التحويلات من مجموعات بيانات NLI الكبيرة، وحقن المعرفة الحاسمة من مصادر المنطقية مثل 2020 والفهول الذرية، حققت طريقنا أداء غير مدهز للحالة غير المدرجة في مهمتين منطقتي المنطقية: Winowhy و Commonsenseqa.أظهر إجراء مزيد من التحليل فوائد فئات متعددة من المعرفة، ولكن مشاكل حول الكميات والمتضادات لا تزال تحديا.
يستكشف هذا العمل قدرات الترجمة الآلية العصبية القائمة على الأحرف لترجمة المحتوى الناتج عن المستخدم الصاخب (UGC) مع التركيز القوي على استكشاف حدود هذه الأساليب للتعامل مع ظواهر UGC الإنتاجية، والتي بحكم تعريفها تقريبا، لا يمكن رؤيتها في وقت التدريبوبع دضمن سيناريو صاروخي صاروخي بالرصاص، نقوم أولا بدراسة التأثير الضار على أداء الترجمة من مختلف ظواهر المحتوى التي تم إنشاؤها من قبل المستخدم على مجموعة بيانات صغيرة مشروحة، وظهرت بعد ذلك أن هذه النماذج غير قادرة بالفعل على التعامل مع الحروف غير المعروفة، مما يؤدي إلى ترجمة كارثيةالفشل بمجرد مواجهة هذه الشخصيات.نحن نؤكد مزيدا من السلوك بتجربة مهمة بسيطة ولكنها ثاقبة وتسليط الضوء على أهمية تقليل حجم المفردات Hyper-Parameter لزيادة متانة النماذج القائمة على الأحرف للترجمة الآلية.
يوضح هذا العمل عملية تطوير بنية تعلم الآلة للاستدلال الذي يمكن أن يتجاوز حجم كبير من الطلبات.استخدمنا نموذج بيرت الذي كان يركض بشكل جيد لتحليل العاطفة، وإرجاع توزيع احتمالية للعواطف بالنظر إلى فقرة.تم نشر النموذج كخدمة GRPC على KUBERNNTES.تم استخدام Apache Spark لأداء الاستدلال على دفعات عن طريق استدعاء الخدمة.واجهنا بعض تحديات الأداء والتزامن وإنشاء حلول لتحقيق وقت التشغيل بشكل أسرع.بدءا من 200 طلب استنتاج ناجح في الدقيقة، تمكنا من تحقيق ما يصل إلى 18 ألف طلب ناجح في الدقيقة مع نفس تخصيص الموارد الوظيفية الدفاعية.نتيجة لذلك، نجحنا في تخزين احتمالات العاطفة لمدة 95 مليون فقرات في غضون 96 ساعة.
تظهر هذه الورقة أن عصير التفاح، مقياس التقييم التقليدي لوصف الصورة، لا يعمل بشكل صحيح على مجموعات البيانات حيث يكون عدد الكلمات في الجملة أكبر بكثير من تلك الموجودة في مجموعة بيانات التسميات التوضيحية MS COCO.نظهر أيضا أن CIDER-D لديه أداء يعوقه عدم وجود جمل مرجعية متعددة والتباين العالي لطول الجملة.لتجاوز هذه المشكلة، نقدم Cider-R، الذي يحسن CIDER-D، مما يجعله أكثر مرونة في التعامل مع مجموعات البيانات ذات تباين طول الجملة.نوضح أن عصير التفاح هو أكثر دقة وأقرب من الحكم الإنساني من عصير التفاح.Cider-R هو أكثر قوة فيما يتعلق بعدد المراجع المتاحة.تكشف نتائجنا أن استخدام تدريب التسلسل الحرج الذاتي لتحسين عصير التفاح - يولد تعليقا وصفيا.في المقابل، عند تحسين CIDER-D، يميل طول التسميات التوضيحية التي تم إنشاؤها إلى أن تكون مشابهة للطول المرجعي.ومع ذلك، تكرر النماذج أيضا عدة مرات نفس الكلمة لزيادة طول الجملة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا