طلبت باتافيا المشورة.نماذج اللغة المحددة مسبقا للتعرف على الكيان المسمى في النصوص التاريخية.


الملخص بالعربية

تقدمت نماذج اللغة المحددة مثل بيرت حالة الفن للعديد من مهام NLP. لغات غنية بالموارد، لدى المرء الاختيار بين عدد من النماذج الخاصة باللغة، في حين أن النماذج متعددة اللغات تستحق الدراسة أيضا. هذه النماذج معروفة جيدا لأدائها Croadlingual، لكنها أظهرت أيضا أداء تنافسي في اللغة في بعض المهام. نحن نعتبر نماذج أحادية اللغات متعددة اللغات من منظور النصوص التاريخية، وعلى وجه الخصوص للنصوص المخصبة بالملاحظات الافتتاحية: كيف تتعامل نماذج اللغة مع المحتوى التاريخي والتحرير في هذه النصوص؟ نقدم مجموعة بيانات جديدة للتعرف على كيان جدد للهولندية بناء على تقارير الشركة الشرقية في الهند التابعة للشرحة في القرن 17 و 18th والتي تمتد مع الملاحظات التحريرية الحديثة. تؤكد تجاربنا مع نماذج اللغة المحددة مسبقا متعددة اللغات والهولندية القدرات crosslingual من النماذج متعددة اللغات مع إظهار أن جميع النماذج اللغوية يمكنها الاستفادة من البيانات المختلطة المختلطة. على وجه الخصوص، تدمج نماذج اللغة بنجاح ملاحظات لتنبؤ الكيانات في النصوص التاريخية. نجد أيضا أن النماذج متعددة اللغات تتفوق على نماذج أحادية الألوان على بياناتنا، ولكن هذا التفوق مرتبط بالمهمة في متناول اليد: تفقد النماذج متعددة اللغات مصلحتها عند مواجهتها بمهام أكثر دلالة.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث