حققت نماذج اللغة المدربة مسبقا (PLMS) مثل بيرت تقدما كبيرا في NLP. عادة ما تحتوي المقالات الإخبارية على معلومات نصية غنية، ويحتوي plms على إمكانات تعزيز نمذجة نص الأخبار لمختلف تطبيقات الأخبار الذكية مثل التوصية الإخبارية واسترجاعها. ومع ذلك، فإن معظم plms الموجودة كبيرة الحجم مع مئات الملايين من المعلمات. تحتاج العديد من تطبيقات الأخبار عبر الإنترنت إلى خدمة ملايين المستخدمين الذين يعانون من تسامح الكمون المنخفض، مما يطرح تحديات كبيرة لإدماج PLMS في هذه السيناريوهات. يمكن تقنيات تقطير المعرفة ضغط plm كبيرة في واحدة أصغر بكثير، وفي الوقت نفسه يبقي الأداء الجيد. ومع ذلك، فإن نماذج اللغة الحالية مدربة مسبقا وتقليدها على Corpus العامة مثل Wikipedia، والتي تحتوي على ثغرات مع مجال الأخبار وقد تكون فرعية نفسية بالنسبة للذكاء الأخبار. في هذه الورقة، نقترح Newsbert، والتي يمكن أن تقطير plms لذكاء الأخبار الفعال والفعال. في نهجنا، نقوم بتصميم إطار التعلم المشترك والتقطير المشترك للمعلم لتعليم كل من نماذج المعلم والطلاب، حيث يمكن أن يتعلم نموذج الطالب من تجربة التعلم لنموذج المعلم. بالإضافة إلى ذلك، نقترح طريقة تقطير الزخم من خلال دمج تدرجات نموذج المعلم في تحديث نموذج الطلاب لتحسين المعرفة التي تعلمتها نموذج المعلم. تجارب شاملة على رقمين في العالم الحقيقي مع ثلاث مهام تظهر أن Newsbert يمكن أن تمكن العديد من تطبيقات الأخبار الذكية مع نماذج أصغر بكثير.
Pre-trained language models (PLMs) like BERT have made great progress in NLP. News articles usually contain rich textual information, and PLMs have the potentials to enhance news text modeling for various intelligent news applications like news recommendation and retrieval. However, most existing PLMs are in huge size with hundreds of millions of parameters. Many online news applications need to serve millions of users with low latency tolerance, which poses great challenges to incorporating PLMs in these scenarios. Knowledge distillation techniques can compress a large PLM into a much smaller one and meanwhile keeps good performance. However, existing language models are pre-trained and distilled on general corpus like Wikipedia, which has gaps with the news domain and may be suboptimal for news intelligence. In this paper, we propose NewsBERT, which can distill PLMs for efficient and effective news intelligence. In our approach, we design a teacher-student joint learning and distillation framework to collaboratively learn both teacher and student models, where the student model can learn from the learning experience of the teacher model. In addition, we propose a momentum distillation method by incorporating the gradients of teacher model into the update of student model to better transfer the knowledge learned by the teacher model. Thorough experiments on two real-world datasets with three tasks show that NewsBERT can empower various intelligent news applications with much smaller models.
المراجع المستخدمة
https://aclanthology.org/
لا يمكن أن تلتقط نماذج تمثيل اللغة المدربة مسبقا مجردة مسبقا (PLMS) بشكل جيد معرفة واقعية من النص. في المقابل، يمكن أن تمثل طرق تضمين المعرفة (KE) بشكل فعال الحقائق العلائقية في الرسوم البيانية المعرفة (KGS) مع تضمينات كيانات مفيدة، لكن نماذج كيد الت
حقق نماذج اللغة المدربة مسبقا بشكل جيد (LMS) نجاحا هائلا في العديد من مهام معالجة اللغة الطبيعية (NLP)، لكنها لا تزال تتطلب بيانات مفرطة الحجم في مرحلة ضبط الدقيقة. ندرس مشكلة LMS المدبرة مسبقا باستخدام إشراف ضعيف فقط، دون أي بيانات معدنية. هذه المشك
في هذه الدراسة، نقترح طريقة تعلم الإشراف على الذات التي تطبق تمثيلات معنى الكلمات في السياق من نموذج لغة ملثم مسبقا مسبقا. تعد تمثيلات الكلمات هي الأساس للدلالات المعجمية في السياق وتقديرات التشابه المنصوصية الدلالية غير المرفوعة (STS). تقوم الدراسة
أظهرت نماذج اللغة الموجودة مسبقا مسبقا (PLMS) فعالية التعلم الإشراف على الذات لمجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن معظمهم لا يدركون بشكل صريح المعرفة الخاصة بالمجال، وهو أمر ضروري لمهام المصب في العديد من المجالات، مثل المه
يتعين على نماذج اللغة المدربة مسبقا (PRLM) لإدارة وحدات الإدخال بعناية عند التدريب على نص كبير جدا مع مفردات تتكون من ملايين الكلمات. أظهرت الأعمال السابقة أن دمج معلومات المسيح على مستوى الأمان بشأن الكلمات المتتالية في التدريب المسبق يمكن أن تحسن أ