عادة ما تستخدم قواعد المعرفة العلوية (KBS) لتمثيل المعرفة العالمية في الآلات. ومع ذلك، في حين أن مفيدة لدرجة عالية من الدقة والتفسيرية، عادة ما يتم تنظيم KBS وفقا للخطط المعرفة يدويا، والتي تحد من تعبيرها وتتطلب جهود إنسانية كبيرة للمهندس والصيانة. في هذا الاستعراض، نأخذ منظور معالجة لغات طبيعية لهذه القيود، وفحص كيفية معالجةها جزئيا من خلال تدريب نماذج اللغة السياقية العميقة (LMS) لاستيعابها والتعبير عن المعرفة العلاجية بأشكال أكثر مرونة. نقترح تنظيم استراتيجيات تمثيل المعرفة في LMS بواسطة مستوى إشراف KB المقدمة، من أي إشراف KB على الإشراف على مستوى الكيان والعلاقات. مساهماتنا هي ثلاثة أضعاف: (1) نحن نقدم تصنيفا رفيع المستوى، توسع لتمثيل المعرفة في LMS؛ (2) ضمن تصنيفنا، نسلط الضوء على النماذج البارزة ومهام التقييم والنتائج، من أجل تقديم استعراض محدث لقدرات تمثيل المعرفة الحالية في LMS؛ و (3) نقترح اتجاهات البحث في المستقبل التي تبني على الجوانب التكميلية ل LMS و KBS كتمثيل المعرفة.
Relational knowledge bases (KBs) are commonly used to represent world knowledge in machines. However, while advantageous for their high degree of precision and interpretability, KBs are usually organized according to manually-defined schemas, which limit their expressiveness and require significant human efforts to engineer and maintain. In this review, we take a natural language processing perspective to these limitations, examining how they may be addressed in part by training deep contextual language models (LMs) to internalize and express relational knowledge in more flexible forms. We propose to organize knowledge representation strategies in LMs by the level of KB supervision provided, from no KB supervision at all to entity- and relation-level supervision. Our contributions are threefold: (1) We provide a high-level, extensible taxonomy for knowledge representation in LMs; (2) Within our taxonomy, we highlight notable models, evaluation tasks, and findings, in order to provide an up-to-date review of current knowledge representation capabilities in LMs; and (3) We suggest future research directions that build upon the complementary aspects of LMs and KBs as knowledge representations.
المراجع المستخدمة
https://aclanthology.org/
المعرفة الواقعية المكتسبة أثناء التدريب المسبق وتخزينها في معلمات نماذج اللغة (LMS) يمكن أن تكون مفيدة في مهام المصب (على سبيل المثال، الإجابة على السؤال أو الاستدلال النصي). ومع ذلك، يمكن أن تسبب بعض الحقائق أو تصبح عفا عليها الزمن مع مرور الوقت. نق
اجتذبت نجاح نماذج اللغة السياقية واسعة النطاق اهتماما كبيرا بتحقيق ما يتم ترميزه في تمثيلاتهم.في هذا العمل، نعتبر سؤالا جديدا: إلى أي مدى يتم محاذاة تمثيل السياق للأسماء الخرسانية مع التمثيلات المرئية المقابلة؟نقوم بتصميم نموذج التحقيق الذي يقيم مدى
نماذج اللغة العصبية، بما في ذلك النماذج القائمة على المحولات، والتي تدرب مسبقا على كوربورا كبيرة جدا أصبحت وسيلة شائعة لتمثيل النص في مهام مختلفة، بما في ذلك الاعتراف بالعلاقات الدلالية النصية، على سبيل المثال نظرية هيكل الوثائق عبر المستندات. عادة م
أحد الجوانب المركزية لنماذج اللغة السياقية هو أنه ينبغي أن يكون قادرا على التمييز بين معنى الكلمات الغامضة من قبل سياقاتهم. في هذه الورقة، نقوم بالتحقيق في مدى تشكيلات الكلمات السياقية التي تشكل تعدد التعدد المعني بالضمان التقليدي من Polysemy ومجهلي.
نستخدم مجموعة بيانات من الأسماء الأولى الأمريكية مع ملصقات تستند إلى النوع الاجتماعي السائد والمجموعة العرقية لفحص تأثير تواتر Corpus على التقييم والسياق والتشابه إلى التمثيل الأولي والتحيز في Bert و GPT-2 و T5 و XLNet. نظهر أن الأسماء الأكثر في الغا