المحاكمة التكيفية في المجال، أي الاحتجاج المستمر غير المدعوم من نموذج اللغة على النص الخاص بالمجال، يحسن نمذجة النص لمهام المصب داخل المجال. تعتمد العديد من تطبيقات العالم الحقيقي على نص خاص بالمجال، على سبيل المثال العمل مع الوثائق المالية أو الطبية الحيوية، وغالبا ما تحتاج هذه التطبيقات إلى دعم لغات متعددة. ومع ذلك، يمكن الحصول على بيانات محتملة متعددة اللغات متعددة اللغات واسعة النطاق لمثل هذه السيناريوهات، بسبب اللوائح أو التشريعات أو مجرد نقص في نص لغة ولغة خاصة. أحد الحلول هو تدريب نموذج واحد متعدد اللغات، والاستفادة من البيانات المتاحة بأكبر عدد ممكن من اللغات. في هذا العمل، نستكشف عن فوائد الاحتجاج بالتكيف مع التركيز على التكيف مع لغات متعددة داخل مجال معين. نقترح تقنيات مختلفة لتكوين شرطة المحاطات التي تمكن نموذج اللغة كلاهما خاص بالمجال وتعدد اللغات. التقييم على تسعة مجموعات بيانات خاصة بالمجال --- بالنسبة للاعتراف بالكيان الطبي الطبيعي وتصنيف الجملة المالية --- تغطي سبعة لغات مختلفة تظهر أن نموذج واحد خاص متعدد اللغات يمكن أن يتفوق على النموذج العام متعدد اللغات، ويؤدي بالقرب من نظيره أحادي التوتر. يحمل هذا البحث عبر اثنين من أساليب ما قبل الاحتجاج المختلفة، محاولات محول ومحاكاة تستند إلى النموذج الكامل.
Domain adaptive pretraining, i.e. the continued unsupervised pretraining of a language model on domain-specific text, improves the modelling of text for downstream tasks within the domain. Numerous real-world applications are based on domain-specific text, e.g. working with financial or biomedical documents, and these applications often need to support multiple languages. However, large-scale domain-specific multilingual pretraining data for such scenarios can be difficult to obtain, due to regulations, legislation, or simply a lack of language- and domain-specific text. One solution is to train a single multilingual model, taking advantage of the data available in as many languages as possible. In this work, we explore the benefits of domain adaptive pretraining with a focus on adapting to multiple languages within a specific domain. We propose different techniques to compose pretraining corpora that enable a language model to both become domain-specific and multilingual. Evaluation on nine domain-specific datasets---for biomedical named entity recognition and financial sentence classification---covering seven different languages show that a single multilingual domain-specific model can outperform the general multilingual model, and performs close to its monolingual counterpart. This finding holds across two different pretraining methods, adapter-based pretraining and full model pretraining.
المراجع المستخدمة
https://aclanthology.org/
طبقات محول خفيفة الوزن، وحدات يمكن إدراجها بين طبقات المحولات. يستكشف العمل الأخير باستخدام مثل هذه الطبقات للترجمة الآلية العصبية (NMT)، لتكييف النماذج المدربة مسبقا إلى مجالات جديدة أو أزواج لغة، والتدريب فقط مجموعة صغيرة من المعلمات لكل إعداد جديد
تعرف الهند باسم أرض العديد من الألسنة واللهجات. الترجمة الآلية العصبية (NMT) هي النهج الحديث الحالي للترجمة الآلية (MT) ولكنه يعمل بشكل أفضل فقط مع مجموعات البيانات الكبيرة التي تفتقر إليها اللغات الهندية عادة، مما يجعل هذا النهج غير قابل للاستمرار.
التقدم الملخص في النمذجة المتبادلة يعتمد على مجموعات التقييم الصعبة والواقعية والتنوع.نقدم أسئلة وأجوبة معارف متعددة اللغات (MKQA)، وهي سؤالا مفتوحا في مجال الإجابة على مجموعة التقييم التي تضم أزواج من الإجابات السؤال 10 كيلو محاذاة عبر 26 لغة متنوعة
تم إنشاء العديد من مجموعات البيانات لتدريب نماذج الفهم في القراءة، والسؤال الطبيعي هو ما إذا كان يمكننا دمجها لبناء النماذج التي (1) أداء أفضل على جميع مجموعات بيانات التدريب و (2) تعميم وتحويل أفضل بيانات جديدة إلى مجموعات البيانات الجديدة. عالج الع
تقدم هذه الورقة تقديم Nitt Kyoto لتقدير جودة WMT'21 (QE) مهمة الكشف عن المهمة المشتركة (المهمة 3).تعتمد نهجنا بشكل رئيسي على نموذج مكتبة الجودة التي استخدمنا 11 زوجا لغة، وثلاثة منهم على مستوى الجملة وثلاث مقاييس جودة الترجمة على مستوى الكلمات.بدءا م