ترغب بنشر مسار تعليمي؟ اضغط هنا

الاستدلال المتسابقين متسقين عبر المحولات التكيفية الواثقة

Consistent Accelerated Inference via Confident Adaptive Transformers

479   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقوم بتطوير نهج رواية للاستدلال بثقة في المحولات متعددة الطبقات الكبيرة والمكلفة الآن في كل مكان في معالجة اللغة الطبيعية (NLP).تؤدي الأساليب الحسابية المطفأة أو التقريبية إلى زيادة الكفاءة، ولكن يمكن أن تأتي مع تكاليف أداء غير متوقعة.في هذا العمل، نقدم القطط - محولات تكيفية واثقة - حيث نزيد في وقت واحد من الكفاءة الحسابية، مع ضمان درجة تحديد الحاسمة مع النموذج الأصلي بثقة عالية.تقوم طريقةنا بتدريب رؤوس التنبؤ الإضافية على رأس الطبقات الوسيطة، وتقريرها بشكل حيوي عند إيقاف تخصيص الجهود الحسابية لكل إدخال باستخدام مصنف تناسق التعريف.لمعايرة التوقعات المبكرة لدينا الحكم، نقوم بصياغة امتداد فريد من التنبؤ المطابق.نوضح فعالية هذا النهج في أربعة مهام التصنيف والانحدار.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يوضح هذا العمل عملية تطوير بنية تعلم الآلة للاستدلال الذي يمكن أن يتجاوز حجم كبير من الطلبات.استخدمنا نموذج بيرت الذي كان يركض بشكل جيد لتحليل العاطفة، وإرجاع توزيع احتمالية للعواطف بالنظر إلى فقرة.تم نشر النموذج كخدمة GRPC على KUBERNNTES.تم استخدام Apache Spark لأداء الاستدلال على دفعات عن طريق استدعاء الخدمة.واجهنا بعض تحديات الأداء والتزامن وإنشاء حلول لتحقيق وقت التشغيل بشكل أسرع.بدءا من 200 طلب استنتاج ناجح في الدقيقة، تمكنا من تحقيق ما يصل إلى 18 ألف طلب ناجح في الدقيقة مع نفس تخصيص الموارد الوظيفية الدفاعية.نتيجة لذلك، نجحنا في تخزين احتمالات العاطفة لمدة 95 مليون فقرات في غضون 96 ساعة.
نحن ندرس تصنيف التفضيل المقارن (CPC) الذي يهدف إلى التنبؤ بما إذا كان مقارنة الأفضلية موجودة بين كيانين في عقوبة معينة، وإذا كان الأمر كذلك، فهذا، يفضل الكيان على الآخر. يمكن أن نماذج CPC عالية الجودة تستفيد بشكل كبير تطبيقات مثل السؤال المقارن الرد التوصية القائمة على المراجعة. من بين الأساليب الحالية، تعاني أساليب التعلم غير العميقة من أداء أدنى. الرسم البياني لحديث الحديث في الشبكة العصبية المستندة إلى الشبكة (ما، و 2020) يعتبر فقط المعلومات النحوية مع تجاهل العلاقات الدلالية الحاسمة والمشاعر إلى الكيانات المقارنة. نقترح أن نقترح تحليل المعنويات الشبكة المقارنة المعززة (Saecon) الذي يحسن دقة الحزب الشيوعي الصيني مع محلل معنويات يتعلم المشاعر إلى الكيانات الفردية عبر نقل المعرفة التكيفية المجال. يجري التجارب على مجموعة بيانات Compsent-19 (Panchenko et al.، 2019) تحسنا كبيرا على درجات F1 على أفضل طرق CPC الحالية.
توفر الدلالات الرسمية في تقليد مونتاجوفي صياغة معنى دقيقا، ولكن عادة دون نظرية رسمية من البراغماتية لمعايير السياق وحساستها لمعرفة الخلفية. وفي الوقت نفسه، تجعل النظريات الرسمية البراغماتية تنبؤات صريحة حول المعنى في السياق، ولكنها عموما دون دلالات ت ركيبية محددة جيدا. نقترح إطارا مشتركا للتفسير الدلالي والعملي للجمل في مواجهة المعرفة الاحتمالية. نحن نقوم بذلك (1) تمديد مخطط تفسير Montagovian لتوليد التوزيع عبر المعاني المحتملة، و (2) إنشاء خلفي لهذا التوزيع باستخدام متغير نماذج قانون الكلام الرشيد (RSA)، ولكن معمم على المقترحات التعسفية. يتم ربط هذه الجوانب من إطارنا معا من خلال تقييم الاستقصاء بموجب عدم اليقين الاحتمالي. نطبق نموذجنا على قرار أنشفورا وإظهار أنه يوفر تحيزات متوقعة بموجب افتراضات مناسبة حول توزيعات المعرفة المعجمية والعالمية. علاوة على ذلك، نلاحظ أن إخراج النموذج قوي للتغيرات في معاييرها داخل نطاقات معقولة.
حقق محول ومتغيراتها نجاحا كبيرا في معالجة اللغة الطبيعية.نظرا لأن طرازات المحولات ضخمة الحجم، فإن خدمة هذه النماذج هي تحديا للتطبيقات الصناعية الحقيقية.في هذه الورقة، نقترح، مكتبة الاستدلال عالية الكفاءة للنماذج في عائلة المحولات.يتضمن سلسلة من تقنيا ت تحسين GPU لكلا من تبسيط حساب طبقات المحولات وتقليل بيانات الذاكرة.يدعم النماذج المدربة باستخدام Pytorch و Tensorflow.النتائج التجريبية على معايير الترجمة الآلية القياسية تظهر أنها تحقق تصل إلى 14x تسريع مقارنة مع Tensorflow وتسريع 1.4x مقارنة مع تنفيذ CUDA المتزامن.سيتم إصدار الرمز علنا بعد المراجعة.
نحن التحقيق في نماذج لغة المحولات المدربة مسبقا لسد الاستدلال.نقوم أولا بالتحقيق في رؤوس الاهتمام الفردي في بيرت ومراقبة أن رؤساء الاهتمام في طبقات أعلى تركز بشكل بارز على سد العلاقات داخل المقارنة مع الطبقات المنخفضة والمتوسطة، وكذلك عدد قليل من رؤس اء اهتمامات محددة يركزون باستمرار على سد.الأهم من ذلك، نحن نفكر في نماذج اللغة ككل في نهجنا الثاني حيث يتم صياغة دقة سد العسرة كمهمة تتنبئة رمزية مثيرة للمثنين (من اختبار Cloze).تنتج صياغتنا نتائج متفائلة دون أي ضبط جيد، مما يشير إلى أن نماذج اللغة المدربة مسبقا تلتقط بشكل كبير في سد الاستدلال.يوضح تحقيقنا الإضافي أن المسافة بين المداعين - السابقة وسوء السياق المقدمة إلى النماذج اللغوية تلعب دورا مهما في الاستدلال.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا