ترغب بنشر مسار تعليمي؟ اضغط هنا

طريقة خروج مبكرة في المستقبل العالمية في المستقبل لتسريع استنتاج النماذج المدربة مسبقا مسبقا

A Global Past-Future Early Exit Method for Accelerating Inference of Pre-trained Language Models

325   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تهدف آلية الخروج المبكر إلى تسريع سرعة الاستدلال من نماذج اللغة المدربة مسبقا على نطاق واسع. الفكرة الأساسية هي الخروج مبكرا دون المرور من خلال كل طبقات الاستدلال في مرحلة الاستدلال. لإجراء تنبؤات دقيقة لمهام المصب، ينبغي النظر في المعلومات اللغوية الهرمية المدمجة في جميع الطبقات بشكل مشترك. ومع ذلك، فقد تقتصر الكثير من الأبحاث الآن على استخدام التمثيلات المحلية لطبقة الخروج. هذا العلاج يفقد حتما معلومات عن الطبقات السابقة غير المستخدمة وكذلك الميزات الرفيعة المستوى المضمنة في الطبقات المستقبلية، مما يؤدي إلى الأداء دون الأمثل. لمعالجة هذه المشكلة، نقترح طريقة مستقبلية جديدة جديدة لإجراء تنبؤات شاملة من منظور عالمي. نأخذ أولا في الاعتبار جميع المعلومات اللغوية المضمنة في الطبقات السابقة، ثم اتخذ خطوة أخرى لإشراك المعلومات المستقبلية التي لا يمكن الوصول إليها في الأصل للتنبؤات. توضح تجارب واسعة أن أسلوبنا تتفوق على أساليب الخروج المبكر السابقة من هامش كبير، مما يؤدي إلى أداء أفضل وقوي.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

يتعين على نماذج اللغة المدربة مسبقا (PRLM) لإدارة وحدات الإدخال بعناية عند التدريب على نص كبير جدا مع مفردات تتكون من ملايين الكلمات. أظهرت الأعمال السابقة أن دمج معلومات المسيح على مستوى الأمان بشأن الكلمات المتتالية في التدريب المسبق يمكن أن تحسن أ داء PRLMS. ومع ذلك، بالنظر إلى أن أدلة المسكنات المستفادة مقدمة وإثباتها في التدريب المسبق، فإن الطرق السابقة تستغرق وقتا طويلا ونقص المرونة. لتخفيف الإزعاج، تقدم هذه الورقة طريقة رواية تمتد دقيقة لضبط PRLMS، مما يسهل إعداد SPES يتم تحديده على تكيفه بواسطة مهام معينة من المصب أثناء مرحلة الضبط الجميلة. بالتفصيل، سيتم تجزئة أي جمل تتم معالجتها من قبل PRLM في تمديدات متعددة وفقا لقاموس ما قبل العينات. ثم سيتم إرسال معلومات التجزئة من خلال وحدة CNN الهرمية مع مخرجات التمثيل من PRLM وتولد في نهاية المطاف تمثيلا محسن. تشير التجارب على معيار الغراء إلى أن طريقة ضبط الدقيقة المقترحة تعزز بشكل كبير PRLM، وفي الوقت نفسه، تقدم المزيد من المرونة بطريقة فعالة.
هل يمكن لصق Bert مدربة مسبقا بلغة واحدة و GPT لآخر لترجمة النصوص؟يؤدي التدريب للإشراف على الذات باستخدام بيانات أحادية الأونلينغ فقط إلى نجاح نماذج اللغة المدربة مسبقا (ملثمين) في العديد من مهام NLP.ومع ذلك، فإن ربط بيرت مباشرة كتشفير و GPT حيث أن وح دة فك ترميز يمكن أن يكون تحديا في الترجمة الآلية، وفصول النماذج التي تشبه gpt إلى مكون متقاطع مكون مطلوب في فك تشفير SEQ2SEQ.في هذه الورقة، نقترح Graformer إلى الكسب غير المشروع نماذج اللغة المدربة مسبقا (ملثمين) للترجمة الآلية.مع بيانات أحادية الأبعاد لبيانات التدريب المسبق والتوازي لتدريب تطعيم، نستفيد إلى حد ما من استخدام كلا النوعين من البيانات.تظهر التجارب في 60 اتجاهات أن طريقتنا تحقق متوسط التحسينات من 5.8 بلو في X2EN و 2.9 بلو في اتجاهات EN2X مقارنة مع المحول متعدد اللغات من نفس الحجم.
تم حل معايير المنطق المنطقي إلى حد كبير عن طريق نماذج لغة ضبط دقيقة. الجانب السلبي هو أن الضبط الدقيق قد يتسبب في طرح نماذج إلى البيانات الخاصة بمهام المهام وبالتالي انسوا معرفتهم المكتسبة خلال التدريب المسبق. تعمل الأعمال الحديثة فقط على اقتراح تحدي ثات نموذجية خفيفة الوزن حيث قد تمتلك النماذج بالفعل معرفة مفيدة من الخبرة السابقة، لكن التحدي لا يزال في فهم الأجزاء وإلى أي مدى يجب أن يتم تنقيح النماذج بمهمة معينة. في هذه الورقة، نقوم بالتحقيق في نماذج تتعلم من مجموعات بيانات منطق المنطقية. نقيس تأثير ثلاث طرق تكييف مختلفة عن تعميم ودقة النماذج. تظهر تجاربنا مع نماذجين أن الضبط الدقيق يؤدي بشكل أفضل، من خلال تعلم كل من المحتوى والهيكل المهمة، ولكنه يعاني من التجمع المحدود والمحدود لإجابات جديدة. نلاحظ أن طرق التكيف البديلة مثل ضبط البادئة لها دقة قابلة للمقارنة، ولكن تعميم أفضل من الإجابات غير المرئية وهي أكثر قوة لانشقاقات الخصومة.
نقدم طريقتان رواية غير منشأة لإزالة السمية في النص.تجمع أهميتنا الأولى بين الأفكار الحديثة: (1) إرشادات عملية التوليد مع نماذج اللغة الشرطية النمطية الصغيرة و (2) استخدام نماذج إعادة الصياغة لأداء نقل النمط.نحن نستخدم أداء أداء جيدا تسترشد نماذج لغة مدربة على الطراز للحفاظ على محتوى النص وإزالة السمية.تستخدم الطريقة الثانية لدينا بيرت لاستبدال الكلمات السامة مع مرادفاتها غير الهجومية.نحن نجعل الطريقة أكثر مرونة من خلال تمكين بيرت لتحل محل الرموز القناع مع عدد متغير من الكلمات.أخيرا، نقدم أول دراسة مقارنة واسعة النطاق لنماذج نقل النمط في مهمة إزالة السمية.نقارن نماذجنا بعدد من الطرق لنقل النمط.يتم تقييم النماذج بطريقة خالية من المرجع باستخدام مزيج من مقاييس نقل النمط غير المدقق.كلتا الطريقتين نقترح أن تسفر عن نتائج سوتا الجديدة.
في الآونة الأخيرة، تؤدي نماذج اللغات المدربة مسبقا مؤخرا (على سبيل المثال، بيرت متعددة اللغات) إلى المهام المتقاطعة المصب هي نتائج واعدة.ومع ذلك، فإن عملية التوصيل الدقيقة تغيرت حتما معلمات النموذج المدرب مسبقا ويضعف قدرتها على اللغات، مما يؤدي إلى أ داء فرعي الأمثل.لتخفيف هذه المشكلة، نستفيد من التعلم المستمر للحفاظ على قدرة اللغة الأصلية المتبادلة النموذجية المدربة مسبقا عندما نتنزهها إلى مهام المصب.توضح النتيجة التجريبية أن أساليبنا الراقية الخاصة بنا يمكن أن تحافظ بشكل أفضل على القدرة المتبادلة النموذجية المدربة مسبقا في مهمة استرجاع الجملة.حقق طرقنا أيضا أداء أفضل من خطوط الأساس الأخرى ذات الصقل الرصيف على علامة العلامة بين العلامات بين الكلام الصفرية عبر اللغات ومهام التعرف على الكيان المسماة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا