mdapt: مجال متعدد اللغات محاكاة التكيف في نموذج واحد


الملخص بالعربية

المحاكمة التكيفية في المجال، أي الاحتجاج المستمر غير المدعوم من نموذج اللغة على النص الخاص بالمجال، يحسن نمذجة النص لمهام المصب داخل المجال. تعتمد العديد من تطبيقات العالم الحقيقي على نص خاص بالمجال، على سبيل المثال العمل مع الوثائق المالية أو الطبية الحيوية، وغالبا ما تحتاج هذه التطبيقات إلى دعم لغات متعددة. ومع ذلك، يمكن الحصول على بيانات محتملة متعددة اللغات متعددة اللغات واسعة النطاق لمثل هذه السيناريوهات، بسبب اللوائح أو التشريعات أو مجرد نقص في نص لغة ولغة خاصة. أحد الحلول هو تدريب نموذج واحد متعدد اللغات، والاستفادة من البيانات المتاحة بأكبر عدد ممكن من اللغات. في هذا العمل، نستكشف عن فوائد الاحتجاج بالتكيف مع التركيز على التكيف مع لغات متعددة داخل مجال معين. نقترح تقنيات مختلفة لتكوين شرطة المحاطات التي تمكن نموذج اللغة كلاهما خاص بالمجال وتعدد اللغات. التقييم على تسعة مجموعات بيانات خاصة بالمجال --- بالنسبة للاعتراف بالكيان الطبي الطبيعي وتصنيف الجملة المالية --- تغطي سبعة لغات مختلفة تظهر أن نموذج واحد خاص متعدد اللغات يمكن أن يتفوق على النموذج العام متعدد اللغات، ويؤدي بالقرب من نظيره أحادي التوتر. يحمل هذا البحث عبر اثنين من أساليب ما قبل الاحتجاج المختلفة، محاولات محول ومحاكاة تستند إلى النموذج الكامل.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث