ترغب بنشر مسار تعليمي؟ اضغط هنا

TR-BERT: تخفيض الرمز المميز الديناميكي لتسريع بيرت بيرت

TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference

274   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

غالبا ما تكون نماذج اللغة المدربة مسبقا مسبقا (PLMS) باهظة الثمن بشكل أساسي في الاستدلال، مما يجعلها غير عملية في مختلف تطبيقات العالم الحقيقي المحدودة. لمعالجة هذه المشكلة، نقترح مقاربة تخفيض رمزية ديناميكية لتسريع استنتاج PLMS، والتي تسمى Tr-Bert، والتي يمكن أن تتكيف مرونة عدد الطبقة من كل رمزي في الاستدلال لتجنب الحساب الزائد. خصيصا، تقوم Tr-Bert بتصوير عملية تخفيض الرمز المميز كأداة اختيار رمز تخطيط متعدد الخطوات وتعلم تلقائيا استراتيجية الاختيار عبر التعلم التعزيز. تظهر النتائج التجريبية على العديد من مهام NLP المصب أن Tr-Bert قادرة على تسريع بيرتف بمقدار 2-5 مرات لإرضاء متطلبات الأداء المختلفة. علاوة على ذلك، يمكن ل TR-Bert تحقيق أداء أفضل مع حساب أقل في مجموعة من المهام النصية الطويلة لأن تكييف رقم الطبقة على مستوى الرمز المميز يسرع بشكل كبير عملية انتباه الذات في plms. يمكن الحصول على شفرة المصدر وتفاصيل التجربة لهذه الورقة من https://github.com/thunlp/tr-bert.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

ثبت أن دمج المعرفة المعجمية في نماذج التعلم العميق قد تكون فعالة للغاية لمهام وضع التسلسل.ومع ذلك، فإن الأمر السابق يعمل عادة صعوبة في التعامل مع المعجم الديناميكي النطاق الذي يسبب غالبا ضوضاء مطابقة مفرطة ومشاكل التحديثات المتكررة.في هذه الورقة، نقت رح Dylex، ونهج تأريك معجم التوصيل لمهام تسلسل التسلسل القائمة على بيرت.بدلا من الاستفادة من تضمين الكلمات في المعجم في الأساليب التقليدية، فإننا نعتمد تضمين العلامات اللاإرادي للكلمة لتجنب إعادة تدريب التمثيل أثناء تحديث المعجم.علاوة على ذلك، فإننا نوظف طريقة تنظيف المعرفة المعلنة المعجمية الفعالة لإعلام الضوضاء المطابقة.وأخيرا، نقدم آلية الانتباه المعرفة القائم على العقيد الحكيمة لضمان استقرار الإطار المقترح.تجارب تجارب عشرة مجموعات من ثلاث مهام تشير إلى أن الإطار المقترح يحقق سوتا جديدة، حتى مع المعجم على نطاق واسع جدا.
في هذا العمل، نقترح إطارا جديدا، برت التعلم المتبادل المتماثل التدرج (Gaml-Bert)، لتحسين الخروج المبكر من Bert.مساهمات Gaml-Bert هي طي ثنائي.نقوم بإجراء مجموعة من التجارب الطيارية، والتي توضح أن تقطير المعرفة المتبادلة بين الخروج الضحل والخروج العميق يؤدي إلى أداء أفضل لكليهما.من هذه الملاحظة، نستخدم التعلم المتبادل لتحسين عروض بيرت المبكرة المبكرة، أي نطلب من كل خروج من بيرت متعددة الخروج لتقطير المعرفة من بعضها البعض.ثانيا، نقترح GA، طريقة تدريب جديدة تقوم بمحاذاة التدرجات من تقطير المعرفة إلى خسائر الانتروبية.يتم إجراء تجارب واسعة النطاق على معيار الغراء، والذي يدل على أن لدينا Gaml-Bert يمكن أن تتفوق بشكل كبير على أحدث الطرق التي تخرج من أحدث الطرق (SOTA) في وقت مبكر.
في العمل السابق، فقد تبين أن بيرت يمكنه محاذاة الجمل المتبادلة بشكل كاف على مستوى الكلمة.نحن هنا التحقيق فيما إذا كان بإمكان بيرت أيضا أن تعمل أيضا كحاذاة على مستوى Char.اللغات التي تم فحصها هي اللغة الإنجليزية والإنجليزية المزيفة والألمانية واليونان ية.نظهر أن اللغتين الوثيقة هي، فإن بيرت أفضل يمكن أن يحاذيها على مستوى الشخصية.يعمل BERT بالفعل بشكل جيد باللغة الإنجليزية إلى محاذاة اللغة الإنجليزية المزيفة، ولكن هذا لا يعمم اللغات الطبيعية إلى نفس المدى.ومع ذلك، يبدو أن قرب لغتين عامين عاملا.اللغة الإنجليزية ترتبط بالألمانية أكثر من اليونانية وينعكس ذلك في مدى تحريزه جيدا؛اللغة الإنجليزية إلى الألمانية أفضل من الإنجليزية إلى اليونانية.ندرس إجراءات متعددة وإظهار أن مصفوفات التشابه اللغات الطبيعية تظهر العلاقات الأضعفين بصرف النظر عن لغتين.
حقق تمثيلات تشفير ثنائية الاتجاه من المحولات (بيرت) عروضا حديثة على العديد من مهام تصنيف النص، مثل تحليل الغراء والمعنويات. بدأ العمل الأخير في المجال القانوني في استخدام بيرت في المهام، مثل التنبؤ بالحكم القانوني والتنبؤ بالانتهاك. تتمثل الممارسات ا لشائعة في استخدام Bert في ضبط نموذج مدرب مسبقا على مهمة مستهدفة واقتطع نصات الإدخال بحجم إدخال BERT (E.G. في معظم الرموز 512). ومع ذلك، نظرا للخصائص الفريدة للمستندات القانونية، فليس من الواضح كيفية التكيف بفعالية بيرت في المجال القانوني. في هذا العمل، نحقق في كيفية التعامل مع المستندات الطويلة، وكيفية أهمية التدريب المسبق على المستندات من نفس المجال باعتباره المهمة المستهدفة. نحن نقوم بإجراء تجارب على مجموعات البيانات الأخيرة: DataSet DataSet ECHR ومجموعة بيانات المهام الناجحة، وهي مهام التصنيف متعددة الملصقات والتصنيف الثنائي، على التوالي. الأهم من ذلك، في المتوسط ​​عدد الرموز في وثيقة من مجموعة بيانات انتهاك EURR أكثر من 1600. في حين أن المستندات الموجودة في مجموعة بيانات المهام الأساسية أقصر (الحد الأقصى لعدد الرموز 204). قارننا بدقة العديد من التقنيات لتكييف بيرت على وثائق طويلة ومقارنة النماذج المختلفة المدربة مسبقا على المجالات القانونية وغيرها. تظهر نتائجنا التجريبية أننا نحتاج إلى التكيف بشكل صريح بتكييف بيرت للتعامل مع المستندات الطويلة، حيث يؤدي اقتطاع إلى أداء أقل فعالية. وجدنا أيضا أن التدريب المسبق على المستندات التي تشبه المهمة المستهدفة ستؤدي إلى أداء أكثر فعالية في العديد من السيناريو.
إن اختيار المصنف الأكثر ملاءمة في السياق اللغوي هو مشكلة معروفة في إنتاج الماندرين والعديد من اللغات الأخرى.تقترح هذه الورقة حل استنادا إلى بيرت، ويقارن هذا الحل إلى النماذج السابقة العصبية والقواعد السابقة، ويقال أن نموذج Bert ينفذ بشكل خاص بشكل جيد على تلك الحالات الصعبة التي يضيف فيها المصنف معلومات إلى النص.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا