ترغب بنشر مسار تعليمي؟ اضغط هنا

الشكل: تحول الموقف المطلق إلى المحولات

SHAPE: Shifted Absolute Position Embedding for Transformers

136   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تمثيل الموقف أمر حاسم لبناء الممثلين على علم الموضع في المحولات.تعاني تمثيلات الموقف الموجودة من عدم وجود تعميم لاختبار البيانات بأطوال غير مرئية أو تكلفة حسابية عالية.نحقق التحقيق في تضمين الموقف المطلق (الشكل) لمعالجة كلا المشكلين.الفكرة الأساسية للشكل هي تحقيق التحول الثابتة، وهي ملكية رئيسية لتمثيلات الموقف الناجحة الأخيرة، من خلال تحويل المواقع المطلقة بشكل عشوائي أثناء التدريب.نوضح هذا الشكل مقارنة تجريبيا نظيره أثناء وجوده أبسط وأسرع.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبحت السيارات التلقائية النصية النصية (VAES) سيئة السمعة بالنسبة للانهيار الخلفي، وهي ظاهرة حيث يتعلم وحدة فك ترميز النموذج أن تجاهل الإشارات من التشفير.نظرا لأنه من المعروف أن الانهيار الخلفي يتم تفاقمه من خلال أجهزة فك ترميز التعبير، فقد شهدت المح ولات اعتمادا محدودا كمكون مكونات في VAES النصية.الدراسات القائمة التي تضم المحولات في مبيعات النصوص (لي وآخرون، 2020؛ فانغ وآخرون.، 2021) تخفيف الانهيار الخلفي باستخدام محاولات ضخمة، وهي تقنية غير متوفرة لمعظم مجتمع البحث دون موارد حوسبة واسعة النطاق.نقدم خطة تدريبية بسيطة من مرحلتين لتحويل محول تسلسل إلى تسلسل إلى VIE مع Finetuning فقط.النموذج اللغوي الناتج هو تنافسية مع VAES المستندة إلى المحولات بشكل كبير في بعض المقاييس الداخلية مع الوقوع على الآخرين.لتسهيل التدريب، استكشفنا بشكل شامل تأثير تقنيات تخفيف الطيام الخلفي المشترك في الأدب.نطلق سرد كودنا للاستكشاف.
شهدت الترجمة الآلية التقدم السريع مع ظهور النماذج القائمة على المحولات. لا تحتوي هذه النماذج على هيكل لغوي صريح مبني عليهم، ومع ذلك فقد لا يزالون لا يزالون يتعلمون ضمنيا علاقات منظمة من خلال حضور الرموز ذات الصلة. نحن نفترض أن هذا التعلم الهيكلي أكثر قوة من خلال مرفق المحولات بشكل صريح مع التحيز الهيكلية، ونحن نحقق في طريقتين للبناء في مثل هذا التحيز. طريقة واحدة، TP-Transformer، تزيد من بنية المحولات التقليدية لتضمين مكون إضافي لتمثيل الهيكل. الطريقة الثانية تغلق الهيكل على مستوى البيانات عن طريق تجزئة البيانات مع التوت التمييز المورفولوجي. نختبر هذه الأساليب على الترجمة من الإنجليزية إلى لغات غنية مورفولوجية، التركية والأجنبية، والنظر في المقاييس التلقائية والتقييمات البشرية. نجد أن كل هذين من النهجين يسمح للشبكة لتحقيق أداء أفضل، ولكن هذا التحسين يعتمد على حجم مجموعة البيانات. باختصار طرق الترميز الهيكلية تجعل المحولات أكثر كفاءة عينة، مما يتيح لهم الأداء بشكل أفضل من كميات أصغر من البيانات.
يحاول هذا البحث تسليط الضوء على مسألة النمو أو التضخم السكاني المتزايد و غير المضبوط، و لاسيما من وجهة نظر المفكر روبرت مالتوس كأحد علماء السكان الذين تركوا بصمتهم في هذا المجال. كما يعالج هذا البحث عدة جوانب أساسية في إطاره النظري: أولا: الأسباب الت ي قد تكمن وراء النمو السكاني كالهجرة و انخفاض معدل الوفيات نتيجة تحسن الرعاية الصحية، و الاهتمام بالصحة الإنجابية للمرأة و توفر الدواء. ثانيا: العلاقة بين كل من التزايد السكاني و المشكلة الغذائية و ذلك من وجهة نظر مالتوس و الذي يرى بأن ثمة علاقة طردية بين المتغيرين، فكلما زاد عدد السكان تأزمت مشكلة الغذاء. ثالثا: الإشارة إلى أبرز الآثار التي قد يتركها النمو السكاني غير المتوازن على البيئة من جهة كالاستمرار في قطع الأشجار و التوسع السكاني و الحاجة إلى المياه العذبة الصالحة للشرب و تلوث الهواء و الماء و التربة و عدم المقدرة على استيعاب النفايات، و على الجانب الاجتماعي كالفقر و البطالة و المستوى الاجتماعي المتدني من جهة أخرى. رابعا: عرض أبرز الحلول التي طرحها مالتوس لحل المشكلة السكانية و تشمل الموانع الأخلاقية و الموانع الطبيعية. خامسا: استعراض بعض المواقف حول المسألة السكانية مثل نظرية توماس سادلر، جيمس ستيوارت، هربرت سبنسر، كارل ماركس ، و الإشارة إلى مدى تقاطعها أو اختلافها مع نظرية مالتوس. و في الختام قدمت عدة مقترحات بغية تحقيق هدف الدراسة في الحد من ظاهرة التزايد السكاني غير المضبوط بغية السير في طريق تنظيمه و الحد من عواقبه السلبية.
تتيح المعالجة الإضافية أنظمة تفاعلية تستجيب بناء على المدخلات الجزئية، وهي خاصية مرغوبة على سبيل المثال في عوامل الحوار. تقوم بنية المحولات الشعبية حاليا بطبيعتها بمعالجة التسلسلات ككل، تجرد فكرة الوقت. محاولات العمل الحديثة لتطبيق المحولات بشكل تدري جي عن طريق إعادة التشغيل - تدريجيا من خلال التغذية بشكل متكرر، إلى نموذج غير متقلب، بادئات إدخال أطول بشكل متزايد لإنتاج مخرجات جزئية. ومع ذلك، فإن هذا النهج مكلف بشكل حسابي ولا يتجادل بكفاءة للتسلسل الطويل. بالتوازي، نشهد جهود لجعل المحولات أكثر كفاءة، على سبيل المثال المحول الخطي (LT) مع آلية تكرار. في هذا العمل، ندرس جدوى LT ل NLU تدريجي باللغة الإنجليزية. تبين نتائجنا أن نموذج LT المتكرر لديه أفضل أداء تدريجي وسرعة الاستدلال أسرع مقارنة بالمحول القياسي واللفنت مع إعادة التشغيل التدريجي، بتكلفة جزء من جودة غير متزايدة (التسلسل الكامل). نظرا لأن إسقاط الأداء يمكن تخفيفه عن طريق تدريب النموذج لانتظار السياق الصحيح قبل الالتزام بإخراج وأن التدريب بادئة الإدخال مفيد لتقديم المخرجات الجزئية الصحيحة.
نماذج المحولات باهظة الثمن لحن النغمة، والبطيئة للتناسم، ولديها متطلبات تخزين كبيرة.تتناول النهج الحديثة هذه أوجه القصور عن طريق تدريب النماذج الأصغر، مما يقلل ديناميكيا حجم النموذج، وتدريب محولات الوزن الخفيف.في هذه الورقة، نقترح Adapterdrop، وإزالة محولات من طبقات محول أقل أثناء التدريب والاستدلال، مما يشتمل على المفاهيم من الاتجاهات الثلاثة.نظهر أن Adapterdrop يمكن أن تقلل ديناميكيا من العلامة الحسابية الحسابية عند إجراء الاستدلال على مهام متعددة في وقت واحد، مع انخفاض الحد الأدنى في عروض العمل.سنقوم بمزيد من المحولات من Adaperfusion، مما يحسن كفاءة الاستدلال مع الحفاظ على أداء العمل بالكامل.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا