ترغب بنشر مسار تعليمي؟ اضغط هنا

آلة قراءة الآلة (MRC) هي واحدة من أكثر المهام تحديا في مجال معالجة اللغة الطبيعية. تم تحقيق نتائج أحدث حديثة ل MRC بنماذج اللغة المدربة مسبقا، مثل بيرت وتعديلاتها. على الرغم من ارتفاع الأداء لهذه النماذج، إلا أنهم لا يزالون يعانون من عدم القدرة على ا سترداد الإجابات الصحيحة من الممرات التفصيلية الطويلة. في هذا العمل، نقدم مخططا جديدا لإدماج هيكل الخطاب للنص في شبكة انتباهي، وبالتالي إثراء التضمين الذي تم الحصول عليه من ترميز بيرت القياسي مع المعرفة اللغوية الإضافية. نحقق أيضا في تأثير أنواع مختلفة من المعلومات اللغوية عن قدرة النموذج على الإجابة على الأسئلة المعقدة التي تتطلب فهم عميق للنص بأكمله. أظهرت التجارب التي تم إجراؤها على مرجع الفريق وأكثر تعقيدا عن مجموعات بيانات الأجابة أن المعزز اللغوي يعزز أداء نموذج بيرت القياسي بشكل كبير.
تيسير آليات الاهتمام الموازية المتعددة التي تستخدم رؤساء اهتمامات متعددة أكبر أداء نموذج المحول لمختلف التطبيقات على سبيل المثال، الترجمة الآلية العصبية (NMT)، تصنيف النص. في آلية اهتمام متعددة الرأس، يحضر رؤوس مختلفة إلى أجزاء مختلفة من المدخلات. وم ع ذلك، فإن القيد هو أن رؤساء متعددة قد يحضرون إلى نفس الجزء من الإدخال، مما أدى إلى زيادة الرؤوس المتعددة. وبالتالي، يتم استخدام الموارد النموذجية. نهج واحد لتجنب ذلك هو أن تقليم رؤساء أقل أهمية بناء على درجة أهمية معينة. في هذا العمل، نركز على تصميم آلية حسابية ذات أهمية ديناميكية (DHICM) لحساب أهمية الرأس بشكل حيوي فيما يتعلق بالإدخال. إن رؤيتنا هي تصميم طبقة اهتمام إضافي مع الاهتمام متعدد الأطراف، وتستخدم مخرجات الاهتمام متعدد الأطراف جنبا إلى جنب مع المدخلات، لحساب أهمية كل رأس. بالإضافة إلى ذلك، نضيف دالة خسارة إضافية لمنع النموذج من تعيين النتيجة نفسها لجميع الرؤوس، لتحديد رؤوس أكثر أهمية وأداء الارتجال. لقد قمنا بتحليل أداء DHICM ل NMT مع لغات مختلفة. تظهر التجارب في مجموعات البيانات المختلفة أن DHICM تتفوق على النهج التقليدي القائم على المحولات من خلال الهامش الكبير، خاصة، عند توفر بيانات التدريب الأقل.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا