تصف هذه الورقة العملية التدريبية لأول نماذج تمثيل اللغة الابتدائية الأولى بناء على بنية بيرت وألبرت.نقوم بتدريب نماذجنا مسبقا على أكثر من 340 كيلو من الجمل، والتي تبلغ أكثر من 50 مرة أكثر من نماذج متعددة اللغات التي تشمل البيانات التشيكية.نحن نتفوق ا
لنماذج متعددة اللغات في 9 من أصل 11 مجموعات من مجموعات البيانات.بالإضافة إلى ذلك، فإننا نؤسس النتائج الجديدة للدولة الجديدة على تسعة مجموعات البيانات.في النهاية، نقوم بمناقشة خصائص النماذج الأولية متعددة اللغات بناء على نتائجنا.نقوم بنشر جميع النماذج المدربة ومضبوطة مسبقا بحرية لمجتمع البحث.
مكنت التقدم في تمثيل اللغة الإنجليزية مهمة أكثر كفاءة عينة من خلال التعلم بكفاءة ترميز يصنف بدائل الرمز المميز بدقة (Electra).أي، بدلا من تدريب نموذج لاستعادة الرموز الممثيلين، يقوم بتدريب نموذج تمييزي على التمييز بين الرموز الإدخال الحقيقية من الرمو
ز التالفة التي تم استبدالها بشبكة مولدات.من ناحية أخرى، فإن نهج تمثيل اللغة باللغة العربية الحالية تعتمد فقط على الاحتجاج عن طريق نمذجة اللغة الملثم.في هذه الورقة، نقوم بتطوير نموذج تمثيل اللغة باللغة العربية، والتي نستها ARAELECTRA.يتم الاحترام من النموذج الخاص بنا باستخدام هدف الكشف عن الرمز المميز في النص العربي الكبير.نقوم بتقييم نموذجنا على مهام NLP العربية المتعددة، بما في ذلك فهم القراءة وتحليل المعرفات والاعتراف باسم الكيان المسمى ونعرض أن ARAELECTRA تتفوق على نماذج تمثيل اللغة العربية الحديثة الحالية، بالنظر إلى نفس البيانات المحددةحجم نموذج أصغر.
لا يمكن أن تلتقط نماذج تمثيل اللغة المدربة مسبقا مجردة مسبقا (PLMS) بشكل جيد معرفة واقعية من النص. في المقابل، يمكن أن تمثل طرق تضمين المعرفة (KE) بشكل فعال الحقائق العلائقية في الرسوم البيانية المعرفة (KGS) مع تضمينات كيانات مفيدة، لكن نماذج كيد الت
قليدية لا يمكنها الاستفادة الكاملة من المعلومات النصية الوفيرة. في هذه الورقة، نقترح نموذجا موحدا لتضمين المعرفة و LanguagereTresentation المعرفي (Kepler)، والذي لا يمكن أن يدمج المعرفة الواقعية بشكل أفضل فقط في PLMS ولكنه ينتج أيضا كه معزز نصيا فعالا مع PLMS القوي. في Kepler، نقوم بتشفير أوصاف الكيان النصي مع PLM كأنبات، ثم قم بتحسين أهداف النمذجة Ke واللغة المشتركة. تظهر النتائج التجريبية أن Kepler يحقق أدائها الحديثة في مهام NLP المختلفة، ويعمل أيضا بشكل ملحوظ كنموذج كه حثي على التنبؤ بربط KG. علاوة على ذلك، بالنسبة إلى ما قبل التدريب وتقييم Kepler، فإننا نبني Wikidata5M1، ومجموعة بيانات KG واسعة النطاق مع أوصاف كيان محاذاة، وأساليب KE-the-the-the-the-the-the-benchmark على ذلك. يجب أن تكون بمثابة مرجع كيد جديد وتسهيل البحث في كجم كبير، حثي كه، و KG مع النص. يمكن الحصول على شفرة المصدر من https://github.com/thu-keg/kepler.