يعمل العمل المسبق على جيل البيانات إلى النص، ومهمة تحويل الكلام الرسم البياني (KG) ثلاث مرات إلى نص طبيعي، يركز على مجموعات البيانات القياسية الخاصة بالمجال. ومع ذلك، في هذه الورقة، فإننا ننفذنا اللغة الإنجليزية بأكملها Wikidata KG، ومناقشة التحديات الفريدة المرتبطة بمجال واسع ومجموع واسع النطاق. نوضح كذلك بأنه لفظي كجم شامل ومكون من كجم مثل Wikidata يمكن استخدامه لدمج KGS الهيكلية واللغات الطبيعية. على عكس العديد من البنيات التي تم تطويرها لدمج هاتين المصدرين، فإن نهجنا يحول كجم إلى نص طبيعي، مما يسمح له بالدمج بسلاسة في نماذج اللغة الحالية. إنه يحمل مزايا أخرى لتحسين الدقة الواقعية وتقليل السمية في نموذج اللغة الناتج. نقوم بتقييم هذا النهج عن طريق زيادة عملية استرجاع النموذج لغوي استرجاع وإظهار تحسينات كبيرة على مهام المعرفة المكثفة في المجال المفتوح وكثير المعرفة LAMA.
Prior work on Data-To-Text Generation, the task of converting knowledge graph (KG) triples into natural text, focused on domain-specific benchmark datasets. In this paper, however, we verbalize the entire English Wikidata KG, and discuss the unique challenges associated with a broad, open-domain, large-scale verbalization. We further show that verbalizing a comprehensive, encyclopedic KG like Wikidata can be used to integrate structured KGs and natural language corpora. In contrast to the many architectures that have been developed to integrate these two sources, our approach converts the KG into natural text, allowing it to be seamlessly integrated into existing language models. It carries the further advantages of improved factual accuracy and reduced toxicity in the resulting language model. We evaluate this approach by augmenting the retrieval corpus in a retrieval language model and showing significant improvements on the knowledge intensive tasks of open domain QA and the LAMA knowledge probe.
المراجع المستخدمة
https://aclanthology.org/
تعكس العلاقات في معظم الرسوم البيانية المعارف التقليدية (KGS) فقط الاتصالات الثابتة والواقعية، ولكنها تفشل في تمثيل الأنشطة الديناميكية وتغير الدولة حول الكيانات. في هذه الورقة، نؤكد على أهمية دمج الأحداث في تعلم تمثيل KG، واقتراح نموذج Eventke Event
حققت الرسم البياني المعرفي، الذي يمثل الكيانات والعلاقات في الرسوم البيانية المعرفة مع ناقلات عالية الأبعاد، تقدما كبيرا في التنبؤ بالربط. استكشف المزيد من الباحثين القدرات التمثيلية للنماذج في السنوات الأخيرة. وهذا هو، يحققون في نماذج تمثيلية أفضل ل
تعد تتبع ولاية الحوار مركزيا لأنظمة الحوار الموجهة نحو المهام متعددة المجالات، مسؤولة عن استخراج المعلومات من كلام المستخدمين.نقدم هندسة هجينة جديدة تعزز GPT-2 مع التمثيلات المستمدة من شبكات اهتمام الرسوم البيانية بطريقة تسمح بالتنبؤ السببية والتسلسل
هناك حدود مثيرة في فهم اللغة الطبيعية (NLU) وتوليد (NLG) يدعو (NLG) نماذج لغة (Vision-and) التي يمكن أن تصل إلى إمكانية الوصول إلى مستودعات المعرفة المنظم الخارجية بكفاءة. ومع ذلك، فإن العديد من قواعد المعرفة الموجودة تغطي فقط المجالات المحدودة، أو ت
في هذا العمل، نقدم إطارا نظريا للمعلومات يقوم بتصوير نموذج اللغة عبر اللغات قبل تعظيم المعلومات المتبادلة بين النصوص متعددة اللغات متعددة التحبيب.العرض الموحد يساعدنا على فهم الأساليب الموجودة بشكل أفضل لتعلم تمثيلات عبر اللغات.الأهم من ذلك، مستوحاة