تحقق هذه الورقة فيما إذا كانت قوة النماذج المدربة مسبقا على البيانات النصية، مثل Bert، يمكن نقلها إلى تطبيقات تصنيف تسلسل الرمز المميز.للتحقق من قابلية نقل النماذج المدربة مسبقا، نقوم باختبار النماذج المدربة مسبقا على مهام تصنيف النص مع معاني عدم تطابق الرموز، وبيانات تصنيف تسلسل التسلسل غير المدرسي في العالم الحقيقي، بما في ذلك الحمض الأميني والحمض النووي والموسيقى.نجد أنه حتى على البيانات غير النصية، تتخطى النماذج المدربة مسبقا على النص بشكل أسرع، وأداء أفضل من النماذج ذات الادعاء بشكل عشوائي، وأسوأ قليلا فقط من النماذج باستخدام المعرفة الخاصة بمهام المهام.نجد أيضا أن تمثيل النماذج المدربة مسبقا للنصوص وغير النصية تشترك في أوجه التشابه غير التافهة.
This paper investigates whether the power of the models pre-trained on text data, such as BERT, can be transferred to general token sequence classification applications. To verify pre-trained models' transferability, we test the pre-trained models on text classification tasks with meanings of tokens mismatches, and real-world non-text token sequence classification data, including amino acid, DNA, and music. We find that even on non-text data, the models pre-trained on text converge faster, perform better than the randomly initialized models, and only slightly worse than the models using task-specific knowledge. We also find that the representations of the text and non-text pre-trained models share non-trivial similarities.
المراجع المستخدمة
https://aclanthology.org/
في الآونة الأخيرة، تؤدي نماذج اللغات المدربة مسبقا مؤخرا (على سبيل المثال، بيرت متعددة اللغات) إلى المهام المتقاطعة المصب هي نتائج واعدة.ومع ذلك، فإن عملية التوصيل الدقيقة تغيرت حتما معلمات النموذج المدرب مسبقا ويضعف قدرتها على اللغات، مما يؤدي إلى أ
عززت التطورات الأخيرة في توليد اللغة الطبيعية (NLG) الوسائط لصالح إعادة إدخال ترميز صريح من علاقات الخطاب في المدخلات إلى النماذج العصبية. في The Methodius Corpus، تمثيل معنى (MR) منظم هرمي ويشمل علاقات الخطاب. وفي الوقت نفسه، فقد تبين أن نماذج اللغة
هل يمكن لصق Bert مدربة مسبقا بلغة واحدة و GPT لآخر لترجمة النصوص؟يؤدي التدريب للإشراف على الذات باستخدام بيانات أحادية الأونلينغ فقط إلى نجاح نماذج اللغة المدربة مسبقا (ملثمين) في العديد من مهام NLP.ومع ذلك، فإن ربط بيرت مباشرة كتشفير و GPT حيث أن وح
تهدف آلية الخروج المبكر إلى تسريع سرعة الاستدلال من نماذج اللغة المدربة مسبقا على نطاق واسع. الفكرة الأساسية هي الخروج مبكرا دون المرور من خلال كل طبقات الاستدلال في مرحلة الاستدلال. لإجراء تنبؤات دقيقة لمهام المصب، ينبغي النظر في المعلومات اللغوية ا
نقدم طريقتان رواية غير منشأة لإزالة السمية في النص.تجمع أهميتنا الأولى بين الأفكار الحديثة: (1) إرشادات عملية التوليد مع نماذج اللغة الشرطية النمطية الصغيرة و (2) استخدام نماذج إعادة الصياغة لأداء نقل النمط.نحن نستخدم أداء أداء جيدا تسترشد نماذج لغة