ترغب بنشر مسار تعليمي؟ اضغط هنا

نحو المحولات الإضافية: تحليل تجريبي لنماذج المحولات ل NLU تدريجي

Towards Incremental Transformers: An Empirical Analysis of Transformer Models for Incremental NLU

266   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تتيح المعالجة الإضافية أنظمة تفاعلية تستجيب بناء على المدخلات الجزئية، وهي خاصية مرغوبة على سبيل المثال في عوامل الحوار. تقوم بنية المحولات الشعبية حاليا بطبيعتها بمعالجة التسلسلات ككل، تجرد فكرة الوقت. محاولات العمل الحديثة لتطبيق المحولات بشكل تدريجي عن طريق إعادة التشغيل - تدريجيا من خلال التغذية بشكل متكرر، إلى نموذج غير متقلب، بادئات إدخال أطول بشكل متزايد لإنتاج مخرجات جزئية. ومع ذلك، فإن هذا النهج مكلف بشكل حسابي ولا يتجادل بكفاءة للتسلسل الطويل. بالتوازي، نشهد جهود لجعل المحولات أكثر كفاءة، على سبيل المثال المحول الخطي (LT) مع آلية تكرار. في هذا العمل، ندرس جدوى LT ل NLU تدريجي باللغة الإنجليزية. تبين نتائجنا أن نموذج LT المتكرر لديه أفضل أداء تدريجي وسرعة الاستدلال أسرع مقارنة بالمحول القياسي واللفنت مع إعادة التشغيل التدريجي، بتكلفة جزء من جودة غير متزايدة (التسلسل الكامل). نظرا لأن إسقاط الأداء يمكن تخفيفه عن طريق تدريب النموذج لانتظار السياق الصحيح قبل الالتزام بإخراج وأن التدريب بادئة الإدخال مفيد لتقديم المخرجات الجزئية الصحيحة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نماذج الموضوع العصبي هي النماذج العصبية الأخيرة تهدف إلى استخراج الموضوعات الرئيسية من مجموعة من الوثائق.عادة ما تكون مقارنة هذه النماذج محدودة لأن فرط الدم محتجز ثابتة.في هذه الورقة، نقدم تحليلا تجريبي ومقارنة بين نماذج الموضوعات العصبية من خلال الع ثور على HyperParameters المثلى لكل نموذج لأربعة تدابير أداء مختلفة تبني تحسين بايزي هدف واحد.هذا يسمح لنا بتحديد متانة نموذج موضوع للعديد من مقاييس التقييم.كما أننا تظهر بشكل تجريبي تأثير طول الوثائق على مختلف المقاييس الأمثل واكتشف مقاييس التقييم الموجودة في صراع أو اتفاق مع بعضنا البعض.
تشير الدراسات الحديثة إلى أن نماذج NLU عرضة للإعتماد على ميزات الاختصار للتنبؤ، دون تحقيق فهم اللغة الحقيقية. نتيجة لذلك، تفشل هذه النماذج في التعميم إلى بيانات الواقع الحقيقي خارج التوزيع. في هذا العمل، نظهر أن الكلمات الموجودة في مجموعة تدريب NLU ي مكن أن تكون على غرارها كتوزيع طويل الذيل. هناك نتائج توصلتان: 1) نماذج NLU لها تفضيل قوي للميزات الموجودة في رأس التوزيع الطويل الذيل، و 2) يتم التقاط ميزات الاختصار خلال التكرارات القليلة المبكرة للغاية للتدريب النموذجي. يتم استخدام هاتين الملاحمينين أيضا لصياغة قياس يمكن تحديد درجة الاختصار من كل عينة تدريبية. استنادا إلى قياس الاختصار هذا، نقترح وضع إطار تخفيف الاختصار LGTR، لقمع النموذج من إصدار تنبؤات مكثفة للعينات مع درجة اختصار كبيرة. النتائج التجريبية على ثلاثة معايير NLU توضح أن شرح التوزيع طويل الذيل يعكس بدقة سلوك التعلم الاختصار لنماذج NLU. يشير التحليل التجريبي كذلك إلى أن LGTR يمكن أن يحسن دقة التعميم على بيانات OOD، مع الحفاظ على الدقة على بيانات التوزيع.
إن تضمين الموضع النسبي (RPE) هو طريقة ناجحة لتشفير معلومات موقف مركزية وفعالة في نماذج المحولات.في هذه الورقة، نحقق في المشكلات المحتملة في Shaw-RPE و XL-RPE، والتي تعد أكثر من الممثلين والجلوب السائدة، واقتراح اثنين من روبيس رواية تسمى RPE الخشنة ال خشنة الرفيعة المستوى الرفيع المستوى (LFHC)Gaussian وظيفة التوزيع التراكمي (GCDF) RPE.LFHC-RPE هو تحسن شو-RPE، مما يعزز قدرة التصور على المناصب النسبية المتوسطة والطويلة.تستخدم GCDF-RPE الخصائص الممتازة لوظيفة Gaussian لتعديل آلية الترميز السابقة في XL-RPE.النتائج التجريبية على تسعة مجموعات بيانات موثوقة تظهر فعالية أساليبنا تجريبيا.علاوة على ذلك، تحقق GCDF-RPE أفضل الأداء العام بين خمسة RPES مختلفة.
بناء الجملة أساسي في تفكيرنا حول اللغة.الفشل في التقاط هيكل لغة الإدخال قد يؤدي إلى مشاكل تعميم وتعامل معهم.في العمل الحالي، نقترح نموذجا جديدا للغة في مجال بناء الجملة: ذاكرة ترتيب سنوية (SOM).نماذج النموذج صراحة الهيكل مع محلل تدريجي وتحافظ على إعد اد الاحتمالات الشرطي لطراز اللغة القياسية (من اليسار إلى اليمين).لتدريب المحلل التدريجي وتجنب تحيز التعرض، نقترح أيضا أوراكل ديناميكية جديدة، بحيث يكون SOM أكثر قوة لقرارات تحليل خاطئة.تظهر التجارب أن SOM يمكن أن يحقق نتائج قوية في نمذجة اللغة، والتحليل الإضافي، واختبارات التعميم النحوي أثناء استخدام معلمات أقل من النماذج الأخرى.
تعاونت التمثيلات السياقية القائمة على نماذج اللغة العصبية حالة الفن في مختلف مهام NLP. على الرغم من نجاحها الكبير، فإن طبيعة هذه التمثيل لا تزال سرية. في هذه الورقة، نقدم ملكية تجريبية لهذه التمثيلات --- "المتوسط" "تقريب أول عنصر رئيسي". على وجه التح ديد، تظهر التجارب أن متوسط ​​هذه التمثيل يشارك نفس الاتجاه تقريبا مثل العنصر الرئيسي الأول في المصفوفة التي تعد أعمدة هذه التمثيلات. نعتقد أن هذا يفسر لماذا تمثيل متوسط ​​هو دائما خط أساس بسيط ولكنه قوي. تظهر امتحاناتنا الإضافية أن هذه الخاصية تعقد أيضا سيناريوهات أكثر تحديا، على سبيل المثال، عندما تكون التمثيلات من نموذج مباشرة بعد تهيئةها العشوائية. لذلك، نحن نقوم بالتخمين أن هذه الخاصية هي جوهرية لتوزيع التمثيلات وعدم الصلة بالضرورة بنية الإدخال. نحن ندرك أن هذه التمثيلات متابعة تجريبيا توزيعا طبيعيا لكل بعد، ومن خلال افتراض أن هذا صحيح، نوضح أن الممتلكات التجريبية يمكن أن تكون في الواقع رياضيا.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا