كانت النماذج اللغوية الكبيرة المدربة مسبقا مثل بيرت القوة الدافعة وراء التحسينات الأخيرة في العديد من مهام NLP.ومع ذلك، يتم تدريب بيرت فقط على التنبؤ بالكلمات المفقودة - إما من خلال اخفاء أو تنبؤ الجملة التالي - وليس لديه معرفة بالمعلومات المعجمية أو النحوية أو الدلالية التي تتجاوز ما يلتقطه من خلال التدريب المسبق غير المدعوم.نقترح طريقة جديدة لحقن المعلومات اللغوية بشكل صريح في شكل embeddings في أي طبقة من بيرت المدرب مسبقا.عند ضمانات المضادات المضادة ومقرها التبعية، تشير تحسينات الأداء على مجموعات بيانات التشابه الدلالية المتعددة إلى أن هذه المعلومات مفيدة وفقدها حاليا من النموذج الأصلي.يوضح تحليلنا النوعي أن حقن التضمين المضاد للأدمان مفيد بشكل خاص، مع تحسينات ملحوظة على الأمثلة التي تتطلب دقة مرادف.
Large pre-trained language models such as BERT have been the driving force behind recent improvements across many NLP tasks. However, BERT is only trained to predict missing words -- either through masking or next sentence prediction -- and has no knowledge of lexical, syntactic or semantic information beyond what it picks up through unsupervised pre-training. We propose a novel method to explicitly inject linguistic information in the form of word embeddings into any layer of a pre-trained BERT. When injecting counter-fitted and dependency-based embeddings, the performance improvements on multiple semantic similarity datasets indicate that such information is beneficial and currently missing from the original model. Our qualitative analysis shows that counter-fitted embedding injection is particularly beneficial, with notable improvements on examples that require synonym resolution.
المراجع المستخدمة
https://aclanthology.org/
تشمل اللغة البشرية أكثر من مجرد نص؛كما أنه ينقل العواطف من خلال النغمة والإيماءات.نقدم دراسة حالة لثلاث هندسة بسيطة وفعالة قائمة على المحولات لتنبؤ المعنويات والعاطفة في البيانات متعددة الوسائط.يقوم نموذج الانصهار المتأخر بدمج ميزات Unimodal لإنشاء ت
أفضل تحجيم (BWS) أفضل منهجية للتعليق على أساس مثيلات مقارنة والترتيب، بدلا من تصنيف أو تسجيل الحالات الفردية.أظهرت الدراسات فعالية هذه المنهجية المطبقة على مهام NLP من حيث جودة عالية من مجموعات البيانات الناتجة عن طريق ذلك.في ورقة مظاهرة النظام هذه،
تركز معالجة اللغة الطبيعية الحالية بقوة على زيادة الدقة.يأتي التقدم بتكلفة نماذج فائقة الثقيلة مع مئات الملايين أو حتى مليارات المعلمات.ومع ذلك، فإن المهام النحوية البسيطة مثل وضع العلامات على جزء من الكلام (POS) أو تحليل التبعية أو التعرف على الكيان
ينقل الناس نيتهم وموقفهم من خلال الأساليب اللغوية للنص الذي يكتبونه. في هذه الدراسة، نقوم بتحقيق كملات المعجم في المعجم عبر الأساليب طوال العدسين: الإدراك البشري وأهمية كلمة الجهاز، لأن الكلمات تختلف في قوة الإشارات الأسلوبية التي تقدمها. لجمع ملصق
النمطية اللغوية هي مجال من اللغويات المعنية بتحليل ومقارنة بين اللغات الطبيعية للعالم بناء على ميزاتها اللغوية المعينة. لهذا الغرض، تاريخيا، اعتمدت المنطقة على استخراج يدوية لقيم الميزات اللغوية من الأوصاف النصية للغات. هذا يجعلها مهمة شاقة وطولها با