ترغب بنشر مسار تعليمي؟ اضغط هنا

طبقات محول الأعلاف هي ذكريات القيمة الرئيسية

Transformer Feed-Forward Layers Are Key-Value Memories

242   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تشكل طبقات الأعلاف إلى الأمام ثلثي معلمات نموذج المحولات، لكن دورها في الشبكة لا تزال غير مستكشفة.نظرا لأن طبقة الأعلاف إلى الأمام في نماذج اللغة المحولات تعمل كذكريات ذات قيمة رئيسية، حيث يرتبط كل مفتاح بأنماط نصية في أمثلة التدريب، وكل قيمة تحفز توزيعا على مفردات الناتج.تبين تجاربنا أن الأنماط المستفادة قابلة للتفسير بشري، وأن الطبقات المنخفضة تميل إلى التقاط أنماط ضحلة، في حين تعلم الطبقات العليا تلك الدلالية أكثر.تكمل القيم أنماط إدخال المفاتيح من خلال تحفيز توزيعات الإخراج التي تركز كتلة الاحتمالية على الرموز المرجح أن تظهر مباشرة بعد كل نمط، خاصة في الطبقات العليا.أخيرا، نوضح أن إخراج طبقة الأعلاف إلى الأمام هو تكوين ذكرياتها، والتي تم تنصيرها لاحقا في جميع طبقات النموذج عبر الاتصالات المتبقية لإنتاج توزيع الناتج النهائي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

توضح هذه الورقة أن تجميع التوقعات الجماعية التجميعية تستفيد من نمذجة المبررات المكتوبة المقدمة من المتنبئين.تشير تجاربنا إلى أن الأساسيات الأهمية والتصويت المرجحة تنافسية، وأن المبررات المكتوبة مفيدة لاستدعاء سؤال طوال حياته إلا في الربع الأخير.نقوم أيضا بإجراء تحليل الأخطاء ذرف الضوء في الخصائص التي تجعل مبرر غير موثوق بها.
غالبا ما تتطلب المهام المكثفة المعرفة مثل الإجابة على الأسئلة استيعاب معلومات من أقسام مختلفة من المدخلات الكبيرة مثل الكتب أو مجموعات المقالات.نقترح ReadTwice، وهي تقنية بسيطة وفعالة تجمع بين العديد من نقاط القوة من الأساليب السابقة لنموذج التبعيات الطويلة المدى مع المحولات.الفكرة الرئيسية هي قراءة النص في شرائح صغيرة، بالتوازي، تلخيص كل قطعة في جدول الذاكرة لاستخدامه في القراءة الثانية للنص.نظهر أن الطريقة تتفوق على نماذج من حجم قابلة للمقارنة على العديد من مجموعات بيانات الإجابة على الأسئلة (QA) وتعيين حالة جديدة من الفن على المهمة السرقة الصعبة، مع أسئلة حول الكتب بأكملها.
نظرا لفعاليتها وأدائها، اجتذب نموذج الترجمة المحولات اهتماما واسعا، مؤخرا من حيث النهج القائمة على التحقيق. يركز العمل السابق على استخدام أو التحقيق في الميزات اللغوية المصدر في التشفير. حتى الآن، فإن الطريقة التي تتطور فيها ترجمة كلمة تتطور في طبقات المحولات لم يتم التحقيق فيها بعد. ساذجا، قد يفترض المرء أن طبقات التشفير التقاط معلومات المصدر أثناء ترجمة طبقات فك التشفير. في هذا العمل، نظير على أن هذا ليس كذلك: الترجمة تحدث بالفعل تدريجيا في طبقات التشفير وحتى في تضمين المدخلات. أكثر من المستغرب، نجد أن بعض طبقات وحدة فك التشفير المنخفضة لا تفعل ذلك بالفعل فك التشفير. نعرض كل هذا من حيث النهج التحقيق حيث نعلم تمثيلات الطبقة التي تم تحليلها إلى مستوى التصنيف المدربين والمجمد النهائي من وحدة فك الترميز المحول لقياس دقة ترجمة Word. تحفز النتائج التي توصلنا إليها وشرح تغيير تكوين محول: إذا حدث الترجمة بالفعل في طبقات التشفير، فربما يمكننا زيادة عدد طبقات التشفير، مع تقليل عدد طبقات فك ترميز أو زيادة سرعة فك التشفير، دون خسارة في جودة الترجمة؟ تبين تجاربنا أن هذا هو في الواقع الحالة: يمكننا زيادة السرعة إلى عامل 2.3 مع مكاسب صغيرة في جودة الترجمة، في حين أن تكوين التشفير العميق 18-4 يعزز جودة الترجمة عن طريق +1.42 بلو (EN-DE) بسرعة -1.4 1.4.
حقق المحول نجاحا كبيرا في مجال NLP من خلال تأليف نماذج متقدمة مختلفة مثل Bert و GPT. ومع ذلك، قد لا تكون المحول ومتغيراتها الحالية هي الأمثل في التقاط مسافات رمزية لأن الموضع أو المدينات المسافة التي تستخدمها هذه الأساليب عادة لا يمكن أن تبقي المعلوم ات الدقيقة للمسافات الحقيقية، والتي قد لا تكون مفيدة لنمذجة أوامر وعلاقات السياقات. في هذه الورقة، نقترح Da-Transformer، وهو محول أدرك عن بعد يمكنه استغلال المسافة الحقيقية. نقترح دمج المسافات الحقيقية بين الرموز الرموز لإعادة توسيع نطاق أوزانات اهتمام الذات الخام، والتي يتم حسابها بأهمية استفسار الاهتمام والمفتاح. بشكل ملموس، يرأس نفس الاهتمام الذاتي مختلف المسافة النسبية بين كل زوج من الرموز المرجحة بواسطة معلمات مختلفة يمكن أن تتحكم في تفضيلات مختلفة على المعلومات الطويلة أو قصيرة الأجل من هذه الرؤوس. نظرا لأن المسافات الحقيقية المرجحة الخام قد لا تكون مثالية لضبط أوزان الاهتمام الذاتي، فإننا نقترح وظيفة Sigomoid ذاتيا في تعيينها في معاملات إعادة التحجيم التي لها نطاقات مناسبة. نحن نقطع لأوزان اهتمام الذات الخام أولا عبر وظيفة RELU للحفاظ على عدم السلبية وإدخال Sparsity، ثم اضربها مع معاملات إعادة التحجيم لترميز معلومات حقيقية عن مسافة عن بعد. تظهر تجارب واسعة على خمسة مجموعات بيانات قياسية أن DA-Transformer يمكن أن يحسن بشكل فعال أداء العديد من المهام وتفوق محول الفانيليا وعدة من المتغيرات.
يتنبأ تحليل المعنويات المستندة إلى جانب الجسيم (ABASA) بقبولية المعنويات نحو مصطلح معين معين في جملة، وهي مهمة مهمة في تطبيقات العالم الحقيقي. لأداء ABSA، يلزم النموذج المدرب أن يكون له فهم جيد للمعلومات السياقية، وخاصة الأنماط الخاصة التي تشير إلى ق طبية المعنويات. ومع ذلك، تختلف هذه الأنماط عادة في جمل مختلفة، خاصة عندما تأتي الجمل من مصادر مختلفة (المجالات)، مما يجعل ABSA لا يزال صعبا للغاية. على الرغم من الجمع بين البيانات المسمى عبر مصادر مختلفة (المجالات) هو حل واعد لمعالجة التحدي، في التطبيقات العملية، عادة ما يتم تخزين هذه البيانات المسمى في مواقع مختلفة وقد لا يمكن الوصول إليها لبعضها البعض بسبب الخصوصية أو المخاوف القانونية (مثل البيانات مملوكة لشركات مختلفة). لمعالجة هذه المشكلة واستخدم أفضل استخدام لجميع البيانات المسمى، نقترح نموذج ABSA الجديد مع التعلم الفيدرالي (FL) المعتمد للتغلب على قيود عزل البيانات وإدماج ذاكرة الموضوع (TM) المقترح اتخاذ حالات البيانات من مصادر متنوعة (المجالات) في الاعتبار. خاصة، تهدف TM إلى تحديد مصادر البيانات المختلفة المعزولة بسبب عدم إمكانية الوصول إلى البيانات من خلال توفير معلومات فئة مفيدة للتنبؤات المحلية. توضح النتائج التجريبية على بيئة محاكاة لثلاثة عقد مع ثلاث عقود فعالية نهجنا، حيث تتفوق TM-FL على خطوط أساس مختلفة بما في ذلك بعض أطر FL مصممة جيدا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا