الحس السليم هو جزء لا يتجزأ من الإدراك البشري الذي يسمح لنا بإجراء قرارات سليمة، والتواصل بفعالية مع الآخرين وتفسير المواقف والكلام. قد تساعدنا أنظمة AI مع إمكانيات المعرفة المنطقية على الاقتراب من إنشاء أنظمة تعرض ذكاء بشري. ركزت الجهود الأخيرة في توليد اللغة الطبيعية (NLG) على دمج معرفة المنظمات من خلال نماذج لغوية مدربة مسبقا واسعة النطاق أو بإدماج قواعد المعرفة الخارجية. تعرض هذه الأنظمة إمكانيات التفكير دون الشعور بالشمول المشفرة بشكل صريح في مجموعة التدريب. تتطلب هذه الأنظمة تقييم دقيق، حيث تقوم بدمج موارد إضافية أثناء التدريب التي تضيف مصادر إضافية للأخطاء. بالإضافة إلى ذلك، يمكن أن يكون للتقييم البشري لمثل هذه الأنظمة اختلافا كبيرا، مما يجعل من المستحيل مقارنة الأنظمة المختلفة وتحديد الأساس. تهدف هذه الورقة إلى إزالة الغموض عن التقييمات الإنسانية لأنظمة NLG المعززة بالعموم من خلال اقتراح بطاقة تقييم العمولة (CEC)، وهي مجموعة من توصيات تقارير التقييم لأنظمة NLG المعززة بالعموم، التي أجرتها تحليل شامل للتقييمات البشرية المبلغ عنها في الأدب الأخير وبعد
Common sense is an integral part of human cognition which allows us to make sound decisions, communicate effectively with others and interpret situations and utterances. Endowing AI systems with commonsense knowledge capabilities will help us get closer to creating systems that exhibit human intelligence. Recent efforts in Natural Language Generation (NLG) have focused on incorporating commonsense knowledge through large-scale pre-trained language models or by incorporating external knowledge bases. Such systems exhibit reasoning capabilities without common sense being explicitly encoded in the training set. These systems require careful evaluation, as they incorporate additional resources during training which adds additional sources of errors. Additionally, human evaluation of such systems can have significant variation, making it impossible to compare different systems and define baselines. This paper aims to demystify human evaluations of commonsense-enhanced NLG systems by proposing the Commonsense Evaluation Card (CEC), a set of recommendations for evaluation reporting of commonsense-enhanced NLG systems, underpinned by an extensive analysis of human evaluations reported in the recent literature.
المراجع المستخدمة
https://aclanthology.org/
شهد حقل NLP مؤخرا زيادة كبيرة في العمل المتعلق بتكاثر النتائج، وأكثر اعترافا بشكل عام بأهمية وجود تعريفات وممارسات مشتركة تتعلق بالتقييم. وقد تركز الكثير من العمل على الاستيلاء على الدرجات المترية حتى الآن، مع استنساخ نتائج التقييم البشرية التي تتلقى
الكشف عن السخري مهم بالنسبة للعديد من مهام NLP مثل تحديد المعنويات في مراجعات المنتج وملاحظات المستخدم والمنتديات عبر الإنترنت.إنها مهمة صعبة تتطلب فهم عميق للغة والسياق والمعرفة العالمية.في هذه الورقة، نحقق ما إذا كانت دمج المعرفة المنطقية تساعد في
أظهرت نماذج واسعة النطاق على نطاق واسع عروضا قوية على العديد من توليد اللغة الطبيعية وفهم المعايير.ومع ذلك، فإن إدخال العمولة فيها لتوليد نص أكثر واقعية يظل تحديا.مستوحاة من العمل السابق على جيل المعرفة المنطقي ومنطق العموم التوليد، نقدم طريقتين لإضا
تدوين المعرفة المنطقية في الآلات هو هدف طويل الأطول من الذكاء الاصطناعي. في الآونة الأخيرة، تم إحراز تقدم كبير نحو هذا الهدف مع تقنيات بناء قاعدة المعرفة التلقائية (KB). ومع ذلك، فإن هذه التقنيات تركز في المقام الأول على اكتساب بيانات KB الإيجابية (T
تحذير: تحتوي هذه الورقة على محتوى قد يكون مسيء أو مزعجا.تستخدم قواعد المعرفة المنطقية (CSKB) بشكل متزايد لمختلف مهام معالجة اللغة الطبيعية.نظرا لأن CSCBS هي في الغالب التي تم إنشاؤها في الغالب وقد تعكس التحيزات المجتمعية، من المهم التأكد من عدم الخلط