ترغب بنشر مسار تعليمي؟ اضغط هنا

الانتباه متناثرة مع الوحدات الخطية

Sparse Attention with Linear Units

228   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في الآونة الأخيرة، جادل بأن نماذج تشفير التشفير يمكن أن تكون أكثر تفسيرا عن طريق استبدال وظيفة SoftMax بالاهتمام بمتغيراتها المتناقضة. في هذا العمل، نقدم رواية، وسيلة بسيطة لتحقيق Sparsity في الانتباه: استبدلنا تنشيط SoftMax مع Relu، وإظهار أن Sparsity يخرج بشكل طبيعي من مثل هذه الصياغة. يتم تحقيق استقرار التدريب بطبقة تطبيع إما إما بتهفية متخصصة أو وظيفة Gating إضافية. إن نموذجنا، الذي نسميه الاهتمام الخطي المعتمد (RELA)، سهل التنفيذ وأكثر كفاءة من آليات الاهتمام المتناقش سابقا سابقا. نحن نطبق RELLA إلى المحولات وإجراء تجارب على خمس مهام ترجمة آلية. recra تحقق أداء الترجمة مماثل للعديد من خطوط الأساس القوية، مع سرعة التدريب وتشكيل سرعة مماثلة للاهتمام الفانيليا. يوضح تحليلنا أن RELLA تقدم معدل مرتفع للغاية وتنوع الرأس، والاهتمام الصافي الناجم عن تحقيق دقة أفضل فيما يتعلق بمحاذاة الكلمة المستهدفة المصدر من النماذج القائمة على Softmax مؤخرا. تتعلم رؤساء RELA بشكل فعال أيضا حضور أي شيء (I.E. أطفئ ") لبعض الاستفسارات، وهو أمر غير ممكن مع بدائل Softmax Sparsified.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم اعتماد اهتمام الذات مؤخرا لمجموعة واسعة من مشاكل النمذجة التسلسلية. على الرغم من فعاليته، فإن اهتمام الذات يعاني من حساب التربيعي ومتطلبات الذاكرة فيما يتعلق بطول التسلسل. تركز النهج الناجحة للحد من هذا التعقيد على حضور النوافذ المنزلق المحلية أو مجموعة صغيرة من المواقع مستقلة عن المحتوى. يقترح عملنا تعلم أنماط الانتباه ديناميكية متناثرة تتجنب تخصيص الحساب والذاكرة لحضور المحتوى غير المرتبط باستعلام الفائدة. يبني هذا العمل على سطرين من الأبحاث: فهو يجمع بين مرونة النمذجة للعمل المسبق على اهتمام متمرد للمحتوى مع مكاسب الكفاءة من الأساليب القائمة على الاهتمام المحلي والزموني المتناثر. نموذجنا، محول التوجيه، ينفذ عن النفس مع وحدة توجيه متناثرة تعتمد على الوسائل K عبر الإنترنت مع تقليل التعقيد العام للانتباه إلى O (N1.5D) من O (N2D) لطول التسلسل N وبعد المخفي D. نظرا لأن نموذجنا يتفوق على نماذج انتباه متناثرة قابلة للمقارنة على نمذجة اللغة على Wikitext-103 (15.8 مقابل 18.3 حيرة)، وكذلك على جيل الصورة على Imagenet-64 (3.43 مقابل 3.44 بت / خافت) أثناء استخدام طبقات أقل من الاهتمام الذاتي. بالإضافة إلى ذلك، وضعنا مجموعة جديدة من مجموعة جديدة من مجموعة بيانات PG-19 التي تم إصدارها حديثا، والحصول على اختبار حيرة من 33.2 مع نموذج محول توجيه 22 طبقة مدرب على تسلسل الطول 8192. نحن نفتح المصدر لتحويل التوجيه في Tensorflow.1
تقوم المشفر المزدح المجرقة بإجراء استرجاع من خلال ترميز المستندات والاستعلامات في متجهات كثيفة منخفضة الأبعاد، حيث سجل كل وثيقة عن طريق المنتج الداخلي مع الاستعلام.نحن نبحث في قدرة هذه الهندسة المعمارية بالنسبة إلى نماذج كيس من الكلمات المتفرقة والشب كات العصبية الاهتمام.باستخدام كل من التحليلات النظرية والتجريبية، نقوم بإنشاء اتصالات بين بعد ترميز، الهامش بين الذهب والوثائق ذات المرتبة الأدنى، وطول الوثيقة، مما يشير إلى حد قيود في سعة الترميزات ذات الطول الثابت لدعم استرجاع الدقة الدقيقة للوثائق الطويلة.بناء على هذه الأفكار، نقترح نموذجا عصبا بسيطا يجمع بين كفاءة الترميز المزدوج مع بعض التعبير عن هياكل التعبير الأكثر تكلفة، واستكشاف الهجينة الكثيفة المتنارية للاستفادة من دقة الاسترجاع المتناقضة.تتفوق هذه النماذج بدائل قوية في استرجاع واسع النطاق.
لالتقاط بنية الرسم البياني الدلالي من النص الخام، يتم بناء معظم طرق التلخيص الموجودة على GNNS مع نموذج مدرب مسبقا.ومع ذلك، فإن هذه الأساليب تعاني من إجراءات مرهقة وحسابات غير فعالة وثائق نصية طويلة.لتخفيف هذه المشكلات، تقترح هذه الورقة HETFORMER، وهو نموذج مدرب مسبقا من المحولات مع انتباه متفرج متعدد الحبيبات لتلخيص الاستخراجي لفترة طويلة.على وجه التحديد، نقوم بالنماذج أنواع مختلفة من العقد الدلالية في النص الخام كشركة بيانية غير متجانسة محتملة وتعلم العلاقات المخللة بشكل مباشر (حواف) بين العقد بواسطة المحول.تظهر تجارب واسعة النطاق على كل من مهام تلخيص مستندات واحدة ومتعددة المستندات أن HETFORMER تحقق أداء حديثة في Rouge F1 أثناء استخدام ذاكرة أقل ومعلمات أقل.
في هذا العمل، نقوم بإجراء تحقيق شامل على إحدى المركزيات من أنظمة الترجمة الآلية الحديثة: آلية اهتمام مفوض الترم التشفير.بدافع من مفهوم محاذاة الدرجة الأولى، فإننا نقدم آلية الاهتمام (الصليب) من خلال اتصال متكرر، مما يسمح بالوصول المباشر إلى قرارات ال انتباه / المحاذاة السابقة.نقترح عدة طرق لتضمين مثل هذا التكرار في آلية الاهتمام.التحقق من أدائها عبر مهام ترجمة مختلفة نستنتج أن هذه الملحقات والتبعية ليست مفيدة لأداء الترجمة من بنية المحولات.
تعد العديد من المهام التسلسلية للتسلسل في معالجة اللغات الطبيعية رتيبة تقريبا في المحاذاة بين المصدر وتسلسل المستهدف، وقد سهل العمل السابق أو إنفاذ سلوك الانتباه الرعبي عبر وظائف الاهتمام المتخصص أو المحاكمة.في هذا العمل، نقدم وظيفة خسارة رتابة متواف قة مع آليات الاهتمام القياسية واختبارها في العديد من المهام التسلسلية للتسلسل: تحويل Grapheme-to-funeme، انعطاف مورفولوجي، والترجمة، وتطبيع اللهجة.تظهر التجارب أننا نستطيع تحقيق سلوك رتيب إلى حد كبير.يتم خلط الأداء، مع مكاسب أكبر على رأس خطوط الأساس RNN.ومع ذلك، فإن عام الرتابة العامة لا يفيد اهتمام محول متعدد الشعر، ومع ذلك، فإننا نرى تحسينات معزولة عندما تكون مجموعة فرعية فقط من الرؤوس منحازة نحو السلوك الرتيب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا