ترغب بنشر مسار تعليمي؟ اضغط هنا

الاتجاه هو ما تحتاجه: تحسين ضغط كلمة التضمين في نماذج لغة كبيرة

Direction is what you need: Improving Word Embedding Compression in Large Language Models

671   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أدى اعتماد النماذج القائمة على المحولات في معالجة اللغة الطبيعية (NLP) إلى نجاح كبير باستخدام عدد ضخم من المعلمات. ومع ذلك، نظرا لقيود النشر في أجهزة الحافة، كان هناك اهتمام متزايد في ضغط هذه النماذج لتحسين وقت استئنافهم وبصمة الذاكرة. تعرض هذه الورقة هدف خسارة رواية لضغط Token Ageddings في النماذج القائمة على المحولات من خلال الاستفادة من بنية AutoNCoder. وبشكل أكثر تحديدا، نؤكد على أهمية اتجاه المدينات المضغوطة فيما يتعلق بالمظلات الأصلية غير المضغوطة. الطريقة المقترحة هي المهام الملحد ولا يتطلب نمذجة لغة أخرى قبل التدريب. يتفوق طريقنا بشكل كبير على نهج مصفوفة مصفوفة SVD شائعة الاستخدام من حيث حيرة نموذج اللغة الأولي. علاوة على ذلك، نقوم بتقييم نهجنا المقترح بشأن مجموعة بيانات Squad V1.1 والعديد من مهام المصب من معيار الغراء، حيث نتفوق أيضا على الأساس في معظم السيناريوهات. كودنا هو الجمهور.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

ندرس قوة الاهتمام الشامل في بنية المحولات في سياق نقل التعلم للترجمة الآلية، وتوسيع نتائج الدراسات في انتباه متقاطع عند التدريب من الصفر.نقوم بإجراء سلسلة من التجارب من خلال ضبط نموذج الترجمة بشكل جيد على البيانات حيث تغيرت المصدر أو اللغة المستهدفة. تكشف هذه التجارب أن ضبط المعلمات الراقية فقط فعالة تقريبا مثل ضبط جميع المعلمات (I.E.، نموذج الترجمة بأكمله).نحن نقدم رؤى في سبب هذا هو الحال والمراقبة أن الحد من الضبط الجميل بهذه الطريقة يؤدي إلى تضمين متفاوت المحاذاة عبر الإنترنت.تتضمن الآثار المترتبة على هذا البحث عن الباحثين والممارسين تخفيفا من النسيان الكارثي، وإمكانية ترجمة الطلقة الصفرية، والقدرة على تمديد نماذج الترجمة الآلية إلى العديد من أزواج لغة جديدة مع انخفاض مستوى تخزين المعلمة.
في هذه الورقة، نصف نظامنا المستخدم في مهمة Semeval 2021 7: hahackathon: الكشف عن الفكاهة والجريمة.استخدمنا نهجا بسيطا للضبط باستخدام نماذج لغة مدربة مسبقا مختلفة (PLMS) لتقييم أدائها للكشف عن الفكاهة والجريمة.بالنسبة لمهام الانحدار، بلغنا متوسط عدد ا لنماذج المختلفة التي تؤدي إلى أداء أفضل من النماذج الأصلية.شاركنا في جميع المساحات الفرعية.تم تصنيف نظامنا الأفضل أداء في المرتبة 4 في SubTask 1-B، 8 في SubTask 1-C، 12 في SubTask 2، وأداء جيدا في التركيز 1-A.نوضح نتائج شاملة أخرى باستخدام نماذج لغة مدربة مسبقا مسبقا والتي ستساعد على أنها خطوط أساس للعمل في المستقبل.
تقدم هذه الورقة نظامنا للحصول على تحديد كمية الكمية، وحدة تحديد الهوية القياس وتصنيف مستوى القيمة الفرعية من المهمة 2021.كان الغرض من مهمة تحديد الكمية تحديد موقع تحديد موقع تمديد النصوص التي تحتوي على عدد أو قياس، يتكون من قيمة، يتبعها عادة وحدة ومع دلات إضافية في بعض الأحيان.كان الهدف من مهمة تصنيف المعدل هو تحديد ما إذا كان جزءا مرتبطا مرتبطا بالإشارة إلى النطاق، والتسامح، والقيمة المتوسطة، وما إلى ذلك من كمية.استخدمت الأنظمة المتقدمة نماذج بيرت المدربة مسبقا والتي كانت ذات صقل مهمة في متناول اليد.نقدم نظامنا، والتحقيق في كيفية تأثير القرارات المعمارية تنبؤات نموذجية، وإجراء تحليل خطأ.بشكل عام، وضع نظامنا 12/19 في المهمة المشتركة وفي المكان الثاني للفئة الفرعية الوحدة.
تم اقتراح نماذج إتمام المعرفة الزمنية المختلفة (KG) في الأدب الحديث. تحتوي النماذج عادة على جزأين، وهي طبقة تضمين زمنية ووظيفة نتيجة مشتقة من نهج النمذجة الثابتة الحالية. نظرا لأن النهج تختلف عدة أبعاد، بما في ذلك وظائف النتيجة المختلفة واستراتيجيات التدريب، فإن المساهمات الفردية في تقنيات التضمين الزمنية المختلفة لنموذج الأداء ليست واضحة دائما. في هذا العمل، ندرس بشكل منهجي ستة مناهج تضمين الزمنية وقياس أدائها تجريبيا عبر مجموعة واسعة من التكوينات مع حوالي 3000 تجربة و 13159 ساعة GPU. نقوم بتصنيف الأشرطة الزمنية إلى فئتين: (1) embeddings timestamp و (2) تضمين كيان تعتمد على الوقت. على الرغم من الاعتقاد المشترك بأن الأخير أكثر تعبيرية، تظهر دراسة تجريبية واسعة النطاق أن تضمين الطابع الزمني يمكن أن تحقق أداء على قدم المساواة أو أفضل مع المعلمات أقل بكثير. علاوة على ذلك، نجد أنه عند التدريب بشكل مناسب، غالبا ما تتقلص فروق الأداء النسبية بين مختلف الأشرطة الزمنية وأحيانا حتى عكسها عند مقارنتها بالنتائج السابقة. على سبيل المثال، يمكن أن تتفوق TTRANSE (CIRING)، واحدة من نماذج KG الزمنية الأولى، الفضلات الأخرى في مجال بيانات ICEWS. لتعزيز المزيد من الأبحاث، نحن نقدم أول إطار موحد مفتوح المصدر لنماذج إكمال KG الزمنية مع توصيف كامل، حيث يمكن الجمع بين المدينين الزمني ووظائف النتيجة ووظائف الخسائر والدعوانات والنمذجة الصريحة للعلاقات المتبادلة بشكل تعسفي.
تعتبر Adgedding Word ضرورية لنماذج الشبكة العصبية لمختلف مهام معالجة اللغة الطبيعية. نظرا لأن كلمة تضمينها عادة ما يكون لها حجم كبير، من أجل نشر نموذج شبكة عصبي وجوده على أجهزة Edge، يجب ضغطه بشكل فعال. كانت هناك دراسة لاقتراح طريقة تقريبية منخفضة رت بة بلوك من أجل تضمين كلمة، تسمى GroupReduce. حتى لو كان هيكلهم فعالا، فإن الخصائص وراء مفهوم برنامج تضمين الكلمة الحكيمة غير الحكيمة لم يتم استكشافه بما فيه الكفاية. بدافع من هذا، نحن نحسن Grouppreduce من حيث ترجيح الكلمة والهيت. بالنسبة للتوزيع النصي، نقترح طريقة بسيطة ولكنها فعالة مستوحاة من مصطلح طريقة تردد المستندات العكسية في التردد وطريقة تامة بناء عليهم، نبني كلمة تمييزية تضمين خوارزمية ضغط. في التجارب، نوضح أن الخوارزمية المقترحة تجد بشكل أكثر فعالية أوزان الكلمات أكثر من المنافسين في معظم الحالات. بالإضافة إلى ذلك، نوضح أن الخوارزمية المقترحة يمكن أن تتصرف مثل إطار من خلال التعاون الناجح مع الكمي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا