ترغب بنشر مسار تعليمي؟ اضغط هنا

RW-KD: مصطلحات الخسائر العينة الحكيمة إعادة الترجيح لتقطير المعرفة

RW-KD: Sample-wise Loss Terms Re-Weighting for Knowledge Distillation

203   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم استخدام تقطير المعرفة (KD) على نطاق واسع في معالجة اللغة الطبيعية لضغط مراحل ما قبل التدريب والضبط المهام الموحد من نماذج اللغة العصبية الكبيرة.يتم تدريب نموذج طالب على تقليل مجموعة محدبة من فقدان التنبؤ عبر الملصقات وآخر على إخراج المعلم.ومع ذلك، فإن معظم الأعمال القائمة إما إصلاح الوزن الاستيفاء بين الخسائرين Apriori أو تختلف الوزن باستخدام الاستدلال.في هذا العمل، نقترح طريقة ترجيح عينة من الخسارة العينة، RW-KD.المتعلم التلوي، مدرب في وقت واحد مع الطالب، إعادة الوزن بشكل متكامل الخسائرتين لكل عينة.نوضح، في 7 مجموعات بيانات من مؤشر الغراء، أن RW-KD تفوقت طرق إعادة توزيع الخسارة الأخرى لدعم KD.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقدم نهج تدريب فعال لاسترجاع النص مع تمثيلات كثيفة تنطبق على تقطير المعرفة باستخدام نموذج تصنيف Colbert المتأخر للتفاعل.على وجه التحديد، نقترح نقل المعرفة من مدرس ثنائي التشفير إلى طالب عن طريق تقطير المعرفة من مشغل كولبير في Maxsim المعبير في منتج ن قطة بسيطة.ميزة المعلم ثنائي التشفير - إعداد الطالب هو أنه يمكننا إضافة سلبيات داخل الدفعة الكفاءة أثناء تقطير المعرفة، مما يتيح التفاعلات الأكثر ثراء بين نماذج المعلم والطلاب.بالإضافة إلى ذلك، باستخدام Colbert حيث يقلل المعلم من تكلفة التدريب مقارنة بتشييح عرض كامل.تجارب على ممر MS MARCO ومهام وصف الوثيقة وبياناتها من مسار التعلم العميق TREC 2019 أن نهجنا يساعد النماذج على تعلم تمثيلات قوية لاسترجاع كثيف بفعالية وكفاءة.
يظهر مطابقة الطبقة الوسيطة كهدوث فعال لتحسين تقطير المعرفة (KD). ومع ذلك، تنطبق هذه التقنية مطابقة في المساحات المخفية لشبكتين مختلفتين (أي طالب ومدرس)، والتي تفتقر إلى التفسير الواضح. علاوة على ذلك، لا يمكن للطبقة المتوسطة KD التعامل بسهولة مع مشاكل أخرى مثل البحث عن تعيين الطبقة وعدم عدم تطابق الهندسة المعمارية (أي أن المعلم والطالب ليكون من نفس النوع النموذجي). لمعالجة المشاكل المذكورة أعلاه، نقترح عالمي دينار كويتي لمطابقة الطبقات الوسيطة من المعلم والطالب في مساحة الإخراج (عن طريق إضافة مصنفات زائفة على الطبقات المتوسطة) عبر إسقاط الطبقة المستندة إلى الاهتمام. من خلال القيام بذلك، يتمتع نهجنا الموحد بثلاث مزايا: (1) يمكن دمجها بمرونة مع تقنيات تقطير الطبقة المتوسطة الحالية لتحسين نتائجها (2) يمكن نشر مصنفات الزائفة من المعلم بدلا من شبكات مساعد المعلم باهظة الثمن مشكلة فجوة القدرة في KD وهي مشكلة شائعة عندما تصبح الفجوة بين حجم المعلم وشبكات الطلاب كبيرة جدا؛ (3) يمكن استخدامه في الطبقة الوسيطة عبر الهندسة الوسطى دينار كويتي. لقد قمنا بتجارب شاملة في تقطير Bert-Base في Bert-4، Roberta-Large في Distilroberta وقاعدة Bert-Base في نماذج CNN و LSTM. تظهر النتائج على مهام الغراء أن نهجنا قادر على تفوق تقنيات KD الأخرى.
تعتبر Adgedding Word ضرورية لنماذج الشبكة العصبية لمختلف مهام معالجة اللغة الطبيعية. نظرا لأن كلمة تضمينها عادة ما يكون لها حجم كبير، من أجل نشر نموذج شبكة عصبي وجوده على أجهزة Edge، يجب ضغطه بشكل فعال. كانت هناك دراسة لاقتراح طريقة تقريبية منخفضة رت بة بلوك من أجل تضمين كلمة، تسمى GroupReduce. حتى لو كان هيكلهم فعالا، فإن الخصائص وراء مفهوم برنامج تضمين الكلمة الحكيمة غير الحكيمة لم يتم استكشافه بما فيه الكفاية. بدافع من هذا، نحن نحسن Grouppreduce من حيث ترجيح الكلمة والهيت. بالنسبة للتوزيع النصي، نقترح طريقة بسيطة ولكنها فعالة مستوحاة من مصطلح طريقة تردد المستندات العكسية في التردد وطريقة تامة بناء عليهم، نبني كلمة تمييزية تضمين خوارزمية ضغط. في التجارب، نوضح أن الخوارزمية المقترحة تجد بشكل أكثر فعالية أوزان الكلمات أكثر من المنافسين في معظم الحالات. بالإضافة إلى ذلك، نوضح أن الخوارزمية المقترحة يمكن أن تتصرف مثل إطار من خلال التعاون الناجح مع الكمي.
في هذه الورقة، نطبق تقطير المعرفة الذاتية لتلخيص النص الذي نقوله أنه يمكن أن يخفف من مشاكل في الحد الأقصى للتدريب احتمالية على مجموعات بيانات مرجعية واحدة وصاخبة.بدلا من الاعتماد على ملصقات توضيحية ذات ساخنة واحدة، يتم تدريب نموذج تلخيص الطلاب لدينا مع توجيهات من المعلم الذي يولد ملصقات سلاسة للمساعدة في تنظيم التدريب.علاوة على ذلك، لتحسين نموذج عدم اليقين أثناء التدريب، نقدم إشارات متعددة الضوضاء لكل من نماذج المعلم والطلاب.نوضح تجريبيا في ثلاثة معايير أن إطار عملائنا يعزز أداء كل من الملاحظات المحددة أو غير مسبوقة تحقيق نتائج حالة من الفنون.
للحد من حجم النموذج ولكن الاحتفاظ بالأداء، كنا نعتمد في كثير من الأحيان على تقطير المعرفة (دينار كويتي) الذي ينقل المعرفة من نموذج المعلم الكبير إلى نموذج طالب أصغر. ومع ذلك، فإن KD على مجموعات بيانات متعددة الوسائط مثل مهام اللغة الرؤية غير مستكشفة نسبيا، وهضم معلومات متعددة الوسائط تحديا لأن طرائق مختلفة تقدم أنواعا مختلفة من المعلومات. في هذه الورقة، نقوم بإجراء دراسة تجريبية واسعة النطاق للتحقيق في أهمية وآثار كل طريقة في تقطير المعرفة. علاوة على ذلك، نقدم إطارا لتقطير المعرفة متعددة الوسائط، وقطاع التقطير الخاص بالطرياء (MSD)، لنقل المعرفة من المعلم عن مهام متعددة الوسائط عن طريق تعلم سلوك المعلم داخل كل طريقة. تهدف الفكرة إلى تحية التنبؤات الخاصة بنوية المعلم من خلال إدخال شروط الخسائر المساعدة لكل طريقة. علاوة على ذلك، نظرا لأن كل طريقة لها اتفاقية مختلفة بالنسبة للتنبؤات، فإننا نحدد درجات الرافية لكل طريقة وتحقيق في مخططات الترجيح القائم على الرافية للخسائر الإضافية. ندرس نهج تعليم الوزن لمعرفة الأثقال المثلى على شروط الخسارة هذه. في تحليلنا التجريبي، نقوم بفحص اتفاقية كل طريقة في KD، وأوضح فعالية نظام الترجيح في MSD، وإظهار أنه يحقق أداء أفضل من KD على أربعة مجموعات بيانات متعددة الوسائط.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا