ترغب بنشر مسار تعليمي؟ اضغط هنا

ترميز وضعي بسيط وفعال للمحولات

A Simple and Effective Positional Encoding for Transformers

413   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نماذج المحولات هي التقليب equivariant.لتزويد الطلب واكتب معلومات الرموز المميزة والإدخال، عادة ما تتم إضافتها إلى المدخلات.تعمل الأعمال الأخيرة الاختلافات المقترحة من الترميزات الموضعية مع ترميزات الموضع النسبي تحقيق أداء أفضل.يوضح تحليلنا أن المكسب يأتي في الواقع من نقل المعلومات الموضعية إلى طبقة الاهتمام من المدخلات.بدافع من ذلك، نقدم اهتماما ممتما مطردا للمحولات (النظام الغذائي)، وهي آلية بسيطة ولكنها فعالة لتشفير معلومات الموقف والقطاع في نماذج المحولات.تتمتع الطريقة المقترحة بتدريب ووقت الاستدلال بشكل أسرع، مع تحقيق أداء تنافسي في معايير الغراء وإكستريم و WMT.نحن نعتبر أكثر تعميم طريقتنا للمحولات الطويلة المدى وإظهار مكاسب الأداء.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

الحصول على الاستجابة العاطفية هي خطوة رئيسية في بناء نظم الحوار التعاطفية. تمت دراسة هذه المهمة كثيرا في Chatbots القائمة على الجيل، ولكن البحوث ذات الصلة في chatbots القائمة على الاسترجاع لا تزال في المرحلة المبكرة. تستند الأعمال الموجودة في Chatbot s المستندة إلى الاسترجاع إلى إطار استرداد Rerank-Rerank، والتي لها مشكلة مشتركة تؤثر على التسمية على حساب جودة الاستجابة. لمعالجة هذه المشكلة، نقترح إطارا بسيطا وفعالا - إعادة الكتابة - إعادة الكتابة. يحل الإطار محل آلية إعادة النشر مع آلية جديدة للتمييز وإعادة الكتابة، والذي يتنبأ بتسمية التأثير على الاستجابة عالية الجودة المستردة من خلال وحدة التمييز ومواصلة إعادة كتابة الاستجابة غير الراضية عبر وحدة إعادة كتابة. هذا لا يمكن أن يضمن فقط جودة الاستجابة، ولكن أيضا تلبية علامة التأثير المحددة. بالإضافة إلى ذلك، فإن التحدي الآخر لهذا السطر البحث هو عدم وجود مجموعة بيانات استجابة عاطفية خارج الرف. لمعالجة هذه المشكلة واختبار إطار عملنا المقترح، سنلقيطر على كوربوس محادثة Douban Sentemental بناء على Corpus الأصلي Doubban Corpus. تظهر النتائج التجريبية أن إطار عملنا المقترح فعال وتفوق خطوط أساس تنافسية.
توليد الحوار المكيف يعاني من ندرة الردود المسمى.في هذا العمل، استغلالنا بيانات نصية غير حوار مرتبطة بالشرط، والتي هي أسهل بكثير لجمعها.نقترح نهج تعليمي متعدد المهام للاستفادة من كل من الحوار والبيانات النصية المسمى.تقوم المهام الثلاثة بتحسين نفس مهمة توليد الحوار المحول مدببت مسبقا على بيانات الحوار المسمى، ومهمة ترميز اللغة مشروطة ومهمة توليد اللغة مشروطة على البيانات النصية المسمى.تظهر النتائج التجريبية أن نهجنا يتفوق على النماذج الحديثة من خلال الاستفادة من النصوص المسمى، كما أنه يحصل أيضا على تحسين أكبر في الأداء مقارنة بالطرق السابقة لاستفادة البيانات النصية.
تلعب الحساب دورا رئيسيا في فهم اللغة الطبيعية.ومع ذلك، فإن نهج NLP الحالية، وليس فقط نهج Word2VEC التقليدي أو نماذج اللغة المستندة إلى المحولات السياقية، تفشل في تعلم الحساب.ونتيجة لذلك، فإن أداء هذه النماذج محدود عند تطبيقه على التطبيقات المكثفة في المجالات السريرية والمالية.في هذا العمل، نقترح نهج تضمين عدد بسيط بناء على الرسم البياني للمعرفة.نحن نبني رسم بياني للمعرفة يتكون من كيانات الأرقام وعلاقات الحجم.يتم بعد ذلك تطبيق طريقة تضمين الرسم البياني للمعرفة للحصول على ناقلات الرقم.نهجنا سهل التنفيذ، وتجربة نتائج التجربة على مختلف مهام NLP ذات الصلة بالكمال إظهار فعالية وكفاءة طريقتنا.
حقق محول ومتغيراتها نجاحا كبيرا في معالجة اللغة الطبيعية.نظرا لأن طرازات المحولات ضخمة الحجم، فإن خدمة هذه النماذج هي تحديا للتطبيقات الصناعية الحقيقية.في هذه الورقة، نقترح، مكتبة الاستدلال عالية الكفاءة للنماذج في عائلة المحولات.يتضمن سلسلة من تقنيا ت تحسين GPU لكلا من تبسيط حساب طبقات المحولات وتقليل بيانات الذاكرة.يدعم النماذج المدربة باستخدام Pytorch و Tensorflow.النتائج التجريبية على معايير الترجمة الآلية القياسية تظهر أنها تحقق تصل إلى 14x تسريع مقارنة مع Tensorflow وتسريع 1.4x مقارنة مع تنفيذ CUDA المتزامن.سيتم إصدار الرمز علنا بعد المراجعة.
عادة ما تحتوي أنظمة الانتقال على العديد من الهياكل الديناميكية (على سبيل المثال، المداخن، المخازن المؤقتة).يجب أن يرميز النموذج المثالي في الانتقال هذه الهياكل تماما وكفاءة.تعمل الأعمال السابقة على الاعتماد على قوالب أو هياكل الشبكة العصبية إما تشفير معلومات بنية جزئية أو تعاني من كفاءة الحساب.في هذه الورقة، نقترح تمثيل تشفير جديد يستند إلى الانتباه إلى جميع الهياكل في نظام انتقالي.على وجه التحديد، نقوم بفصل وجهتين على العناصر الموجودة في الهياكل، وهي طريقة عرض هيكل ثابتة وعرض تعتمد على الهيكل.بمساعدة شبكة الاهتمام الصديقة بالتوازي، نحن قادرون على تشفير الدول الانتقالية مع O (1) تعقيد إضافي (فيما يتعلق باستخراج الميزة الأساسية).تظهر التجارب على PTB و UD أن طريقةنا المقترحة تعمل بشكل كبير على تحسين سرعة الاختبار وتحقق أفضل نموذج يستند إلى الانتقال، ومقارنة مع الطرق الحديثة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا