تصف هذه الورقة العملية التدريبية لأول نماذج تمثيل اللغة الابتدائية الأولى بناء على بنية بيرت وألبرت.نقوم بتدريب نماذجنا مسبقا على أكثر من 340 كيلو من الجمل، والتي تبلغ أكثر من 50 مرة أكثر من نماذج متعددة اللغات التي تشمل البيانات التشيكية.نحن نتفوق النماذج متعددة اللغات في 9 من أصل 11 مجموعات من مجموعات البيانات.بالإضافة إلى ذلك، فإننا نؤسس النتائج الجديدة للدولة الجديدة على تسعة مجموعات البيانات.في النهاية، نقوم بمناقشة خصائص النماذج الأولية متعددة اللغات بناء على نتائجنا.نقوم بنشر جميع النماذج المدربة ومضبوطة مسبقا بحرية لمجتمع البحث.
This paper describes the training process of the first Czech monolingual language representation models based on BERT and ALBERT architectures. We pre-train our models on more than 340K of sentences, which is 50 times more than multilingual models that include Czech data. We outperform the multilingual models on 9 out of 11 datasets. In addition, we establish the new state-of-the-art results on nine datasets. At the end, we discuss properties of monolingual and multilingual models based upon our results. We publish all the pre-trained and fine-tuned models freely for the research community.
المراجع المستخدمة
https://aclanthology.org/
لا يمكن أن تلتقط نماذج تمثيل اللغة المدربة مسبقا مجردة مسبقا (PLMS) بشكل جيد معرفة واقعية من النص. في المقابل، يمكن أن تمثل طرق تضمين المعرفة (KE) بشكل فعال الحقائق العلائقية في الرسوم البيانية المعرفة (KGS) مع تضمينات كيانات مفيدة، لكن نماذج كيد الت
في الآونة الأخيرة، تقدم DEVENTANGLEMEMEMENEM بناء على شبكة خدرية توليدية أو AutoNCoder التباين بشكل كبير أداء التطبيقات المتنوعة في مجالات السيرة الذاتية و NLP.ومع ذلك، لا تزال هذه النماذج تعمل على مستويات خشنة في تحسين الخصائص ذات الصلة ارتباطا وثيق
عادة ما تستخدم قواعد المعرفة العلوية (KBS) لتمثيل المعرفة العالمية في الآلات. ومع ذلك، في حين أن مفيدة لدرجة عالية من الدقة والتفسيرية، عادة ما يتم تنظيم KBS وفقا للخطط المعرفة يدويا، والتي تحد من تعبيرها وتتطلب جهود إنسانية كبيرة للمهندس والصيانة. ف
تكمن الشبكة العصبية الباهظة الثمنية والذاكرة الكثيفة وراء النجاح الأخير لتعلم تمثيل اللغة. نقل المعرفة، وهي تقنية رئيسية لنشر مثل هذا النموذج اللغوي الواسع في البيئات النادرة من الموارد، ينقل المعرفة المتعلقة بتمثيلات الكلمات الفردية المستفادة دون قي
منطق العموم الزمني هي مهمة صعبة لأنها تتطلب المعرفة الزمنية عادة غير صريحة في النص.في هذا العمل، نقترح نموذج فرقة لسبب المنظمات الزمنية.يعتمد نموذجنا على تمثيلات سياقية مدربة مسبقا من نماذج اللغة القائمة على المحولات (IE، Bert)، وعلى مجموعة متنوعة من