تمثيل الموقف أمر حاسم لبناء الممثلين على علم الموضع في المحولات.تعاني تمثيلات الموقف الموجودة من عدم وجود تعميم لاختبار البيانات بأطوال غير مرئية أو تكلفة حسابية عالية.نحقق التحقيق في تضمين الموقف المطلق (الشكل) لمعالجة كلا المشكلين.الفكرة الأساسية للشكل هي تحقيق التحول الثابتة، وهي ملكية رئيسية لتمثيلات الموقف الناجحة الأخيرة، من خلال تحويل المواقع المطلقة بشكل عشوائي أثناء التدريب.نوضح هذا الشكل مقارنة تجريبيا نظيره أثناء وجوده أبسط وأسرع.
Position representation is crucial for building position-aware representations in Transformers. Existing position representations suffer from a lack of generalization to test data with unseen lengths or high computational cost. We investigate shifted absolute position embedding (SHAPE) to address both issues. The basic idea of SHAPE is to achieve shift invariance, which is a key property of recent successful position representations, by randomly shifting absolute positions during training. We demonstrate that SHAPE is empirically comparable to its counterpart while being simpler and faster.
المراجع المستخدمة
https://aclanthology.org/
أصبحت السيارات التلقائية النصية النصية (VAES) سيئة السمعة بالنسبة للانهيار الخلفي، وهي ظاهرة حيث يتعلم وحدة فك ترميز النموذج أن تجاهل الإشارات من التشفير.نظرا لأنه من المعروف أن الانهيار الخلفي يتم تفاقمه من خلال أجهزة فك ترميز التعبير، فقد شهدت المح
شهدت الترجمة الآلية التقدم السريع مع ظهور النماذج القائمة على المحولات. لا تحتوي هذه النماذج على هيكل لغوي صريح مبني عليهم، ومع ذلك فقد لا يزالون لا يزالون يتعلمون ضمنيا علاقات منظمة من خلال حضور الرموز ذات الصلة. نحن نفترض أن هذا التعلم الهيكلي أكثر
يحاول هذا البحث تسليط الضوء على مسألة النمو أو التضخم السكاني المتزايد و غير المضبوط، و لاسيما من وجهة نظر المفكر روبرت مالتوس كأحد علماء السكان الذين تركوا بصمتهم في هذا المجال. كما يعالج هذا البحث عدة جوانب أساسية في إطاره النظري: أولا: الأسباب الت
تتيح المعالجة الإضافية أنظمة تفاعلية تستجيب بناء على المدخلات الجزئية، وهي خاصية مرغوبة على سبيل المثال في عوامل الحوار. تقوم بنية المحولات الشعبية حاليا بطبيعتها بمعالجة التسلسلات ككل، تجرد فكرة الوقت. محاولات العمل الحديثة لتطبيق المحولات بشكل تدري
نماذج المحولات باهظة الثمن لحن النغمة، والبطيئة للتناسم، ولديها متطلبات تخزين كبيرة.تتناول النهج الحديثة هذه أوجه القصور عن طريق تدريب النماذج الأصغر، مما يقلل ديناميكيا حجم النموذج، وتدريب محولات الوزن الخفيف.في هذه الورقة، نقترح Adapterdrop، وإزالة