دا محول: محول عن بعد


الملخص بالعربية

حقق المحول نجاحا كبيرا في مجال NLP من خلال تأليف نماذج متقدمة مختلفة مثل Bert و GPT. ومع ذلك، قد لا تكون المحول ومتغيراتها الحالية هي الأمثل في التقاط مسافات رمزية لأن الموضع أو المدينات المسافة التي تستخدمها هذه الأساليب عادة لا يمكن أن تبقي المعلومات الدقيقة للمسافات الحقيقية، والتي قد لا تكون مفيدة لنمذجة أوامر وعلاقات السياقات. في هذه الورقة، نقترح Da-Transformer، وهو محول أدرك عن بعد يمكنه استغلال المسافة الحقيقية. نقترح دمج المسافات الحقيقية بين الرموز الرموز لإعادة توسيع نطاق أوزانات اهتمام الذات الخام، والتي يتم حسابها بأهمية استفسار الاهتمام والمفتاح. بشكل ملموس، يرأس نفس الاهتمام الذاتي مختلف المسافة النسبية بين كل زوج من الرموز المرجحة بواسطة معلمات مختلفة يمكن أن تتحكم في تفضيلات مختلفة على المعلومات الطويلة أو قصيرة الأجل من هذه الرؤوس. نظرا لأن المسافات الحقيقية المرجحة الخام قد لا تكون مثالية لضبط أوزان الاهتمام الذاتي، فإننا نقترح وظيفة Sigomoid ذاتيا في تعيينها في معاملات إعادة التحجيم التي لها نطاقات مناسبة. نحن نقطع لأوزان اهتمام الذات الخام أولا عبر وظيفة RELU للحفاظ على عدم السلبية وإدخال Sparsity، ثم اضربها مع معاملات إعادة التحجيم لترميز معلومات حقيقية عن مسافة عن بعد. تظهر تجارب واسعة على خمسة مجموعات بيانات قياسية أن DA-Transformer يمكن أن يحسن بشكل فعال أداء العديد من المهام وتفوق محول الفانيليا وعدة من المتغيرات.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث