في الآونة الأخيرة، أصبح تحول المجال، الذي يؤثر على الدقة بسبب الاختلافات في البيانات بين المجالات المصدر والمستهدفة، مشكلة خطيرة عند استخدام أساليب تعلم الآلة لحل مهام معالجة اللغة الطبيعية. مع إجراء محاولات إضافية وضبطا جيدا باستخدام كوربوس المجال المستهدف، يمكن أن معالجة نماذج المحدبة مثل Bert (تمثيلات التشفير الثنائية من المحولات) معالجة هذه المشكلة. ومع ذلك، فإن الاحيلاء الإضافي لنموذج بيرت صعب لأنه يتطلب موارد حسابية كبيرة. إن التعلم بكفاءة التعلم الذي يصنف بدائل الرمز المميز بدقة (Electra) يحل محل النمذجة المصنوعة من النمذجة الملاعمة للطريقة الملثمين من Bert Prodraining مع طريقة تسمى اكتشاف الرمز المميز، مما يحسن الكفاءة الحسابية ويسمح بإحاطاء نموذجي إلى حد عملي. هنا، نقترح طريقة لمعالجة الكفاءة الحسابية لنماذج الاحتجاج في نوبة المجال من خلال إنشاء نموذج محاولات إلكترونية على مجموعة بيانات يابانية وإحاطا إضافي هذا النموذج في مهمة المصب باستخدام Corpus من المجال المستهدف. لقد شيدنا نموذجا محددا ل Electra باللغة اليابانية وأجريت تجارب في مهمة تصنيف المستندات باستخدام بيانات من المقالات الإخبارية اليابانية. تظهر النتائج أنه حتى نموذج أصغر من النموذج المحدد يؤدي بشكل جيد بنفس القدر.
Recently, domain shift, which affects accuracy due to differences in data between source and target domains, has become a serious issue when using machine learning methods to solve natural language processing tasks. With additional pretraining and fine-tuning using a target domain corpus, pretraining models such as BERT (Bidirectional Encoder Representations from Transformers) can address this issue. However, the additional pretraining of the BERT model is difficult because it requires significant computing resources. The efficiently learning an encoder that classifies token replacements accurately (ELECTRA) pretraining model replaces the BERT pretraining method's masked language modeling with a method called replaced token detection, which improves the computational efficiency and allows the additional pretraining of the model to a practical extent. Herein, we propose a method for addressing the computational efficiency of pretraining models in domain shift by constructing an ELECTRA pretraining model on a Japanese dataset and additional pretraining this model in a downstream task using a corpus from the target domain. We constructed a pretraining model for ELECTRA in Japanese and conducted experiments on a document classification task using data from Japanese news articles. Results show that even a model smaller than the pretrained model performs equally well.
المراجع المستخدمة
https://aclanthology.org/