إن استنتاج المنطقي لفهم وشرح اللغة البشرية هي مشكلة بحثية أساسية في معالجة اللغة الطبيعية. يطرح المشرف على المحادثات الإنسانية تحديا كبيرا لأنه يتطلب التفاهم السياقي والتخطيط والاستدلال والعديد من جوانب المنطق بما في ذلك التفكير السببية والزمان والعموم. في هذا العمل، نقدم عصير التفاح - مجموعة بيانات مفيدة يدويا تحتوي على تفسيرات حوار دولي في شكل ثلاثة توائم في ثلاثة أضعاف تستنتج المعرفة الصريحة باستخدام استنتاج المناشد السياقي. يمكن أن يؤدي استخراج التفسيرات الغنية من المحادثات إلى تحسين العديد من التطبيقات المصب. يتم تصنيف ثلاثة توائم مشروح حسب نوع المعرفة المنطقية الحالية (على سبيل المثال، السببية، الشرطية، الزمنية). لقد أنشأنا ثلاث مهام مختلفة مكيفة على مجموعة البيانات المشروحة: الاستدلال اللغوي الطبيعي على مستوى الحوار، واستخراج تمتد، واختيار سبان متعدد الخيارات. النتائج الأساسية التي تم الحصول عليها مع النماذج القائمة على المحولات تكشف أن المهام صعبة، مما يمهد الطريق للبحث في المستقبل الواعدة. تتوفر DataSet وتطبيقات الأساس علنا في https://github.com/declare-lab/cider.
Commonsense inference to understand and explain human language is a fundamental research problem in natural language processing. Explaining human conversations poses a great challenge as it requires contextual understanding, planning, inference, and several aspects of reasoning including causal, temporal, and commonsense reasoning. In this work, we introduce CIDER -- a manually curated dataset that contains dyadic dialogue explanations in the form of implicit and explicit knowledge triplets inferred using contextual commonsense inference. Extracting such rich explanations from conversations can be conducive to improving several downstream applications. The annotated triplets are categorized by the type of commonsense knowledge present (e.g., causal, conditional, temporal). We set up three different tasks conditioned on the annotated dataset: Dialogue-level Natural Language Inference, Span Extraction, and Multi-choice Span Selection. Baseline results obtained with transformer-based models reveal that the tasks are difficult, paving the way for promising future research. The dataset and the baseline implementations are publicly available at https://github.com/declare-lab/CIDER.
References used
https://aclanthology.org/
Humans use commonsense reasoning (CSR) implicitly to produce natural and coherent responses in conversations. Aiming to close the gap between current response generation (RG) models and human communication abilities, we want to understand why RG mode
Pre-trained language models learn socially harmful biases from their training corpora, and may repeat these biases when used for generation. We study gender biases associated with the protagonist in model-generated stories. Such biases may be express
Recent methods based on pre-trained language models have shown strong supervised performance on commonsense reasoning. However, they rely on expensive data annotation and time-consuming training. Thus, we focus on unsupervised commonsense reasoning.
Current commonsense reasoning research focuses on developing models that use commonsense knowledge to answer multiple-choice questions. However, systems designed to answer multiple-choice questions may not be useful in applications that do not provid
Temporal commonsense reasoning is a challenging task as it requires temporal knowledge usually not explicit in text. In this work, we propose an ensemble model for temporal commonsense reasoning. Our model relies on pre-trained contextual representat