ترغب بنشر مسار تعليمي؟ اضغط هنا

التقطير الخاص بالطريقة

Modality-specific Distillation

283   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

الشبكات العصبية الكبيرة غير عملي للنشر على الأجهزة المحمولة بسبب التكلفة الحاسوبية الثقيلة والاستدلال البطيء. تقطير المعرفة (KD) هي تقنية لتقليل حجم النموذج مع الاحتفاظ بالأداء عن طريق نقل المعرفة من نموذج المعلم الكبير إلى نموذج طالب أصغر ". ومع ذلك، فإن KD على مجموعات بيانات متعددة الوسائط مثل مجموعات بيانات اللغة الرؤية غير مستكشفة نسبيا وهضم هذه المعلومات متعددة الوسائط تحديا لأن طرائق مختلفة تقدم أنواعا مختلفة من المعلومات. في هذه الورقة، نقترح تقطير نوعية (MSD) إلى نقل المعرفة بفعالية من المعلم على مجموعات البيانات متعددة الوسائط. يمكن تطبيق نهج KD الحالية على إعداد متعدد الوسائط، لكن الطالب ليس لديه حق الوصول إلى التنبؤات الخاصة بالطريقة. تهدف فكرتنا إلى تحية التنبؤات الخاصة بنوية المعلم من خلال إدخال مصطلح خسائر مساعدة لكل طريقة. نظرا لأن كل طريقة لها أهمية مختلفة للتنبؤات، فإننا نقترح أيضا أساليب التردد للخسائر الإضافية؛ نهج التعلم التلوي لتعلم الأوزان المثلى على شروط الخسارة هذه. في تجاربنا، نوضح فعالية MSD لدينا ونظام الترجيح وإظهار أنه يحقق أداء أفضل من KD.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في معظم سيناريوهات جهاز التقطير أو سرقة الترجمة الآلية العصبية، يتم استخدام فرضية التسجيل أعلى النموذج المستهدف (المعلم) لتدريب نموذج جديد (طالب).إذا كانت الترجمات المرجعية متاحة أيضا، فيمكن إظهار الفرضيات الأفضل (فيما يتعلق بالمراجع) وفرضيات فقراء إ ما إما إما إما أو إشرافها.تستكشف هذه الورقة طريقة مشهد أخذ العينات (تشذيب، فرضية ترشيحها وتشكيلها، واستكريسيا ومجمديها) مع الإنجليزية إلى التشيكية والإنجليزية إلى طرازات MT الألمانية باستخدام مقاييس تقييم MT القياسية.نظرا لأن الإرتفاع الدقيق والتركيبة مع البيانات الأصلية يؤدي إلى أداء أفضل عند مقارنتها بالتدريب فقط على البيانات الأصلية أو المركبة أو تركيها المباشر.
حقق التطورات الحديثة في أنظمة NLP، ولا سيما النموذج الاحتياطي والأصلون، نجاحا كبيرا في الدقة التنبؤية. ومع ذلك، عادة ما لا يتم معايرة هذه الأنظمة بشكل جيد بسبب عدم اليقين خارج الصندوق. تم اقتراح العديد من طرق إعادة المعاير في الأدبيات لتحديد حالة عدم اليقين التنبؤية ونواتج النماذج المعايرة، بدرجات متفاوتة من التعقيد. في هذا العمل، نقدم دراسة منهجية لبعض هذه الأساليب. التركيز على مهمة تصنيف النص ونماذج اللغة الكبيرة المسبقة مسبقا، نظرا لأول مرة أن العديد من النماذج الفعلية غير معايرت بشكل جيد خارج المربع، خاصة عندما تأتي البيانات من إعدادات خارج المجال. بعد ذلك، قارنا فعالية بعض أساليب إعادة المعايير المستخدمة على نطاق واسع (مثل الكفرات، تحجيم درجة الحرارة). بعد ذلك، نوضح تجريبيا اتصالا بين التقطير والمعايرة. نعتبر تقطير مصطلح تنظيمي يشجع نموذج الطالب على إخراج الشكوك التي تتناسب مع نموذج المعلمين. بهذه البصيرة، نطور أساليب إعادة المعايير البسيطة القائمة على التقطير دون أي تكلفة إضافية لاستنتاج الاستدلال. نظهر على معيار الغراء أن أساليبنا البسيطة يمكن أن تحقق أداء المعايرة المنافسة خارج المجال (OOD) W.R.T. مناهج أكثر تكلفة. أخيرا، ندرج ablations لفهم فائدة مكونات أسلوبنا المقترح وفحص قابلية نقل المعايرة عبر التقطير.
نقدم خوارزمية استنادا إلى محولات متعددة الطبقات لتحديد ردود الفعل الدوائية الضارة (ADR) في بيانات وسائل التواصل الاجتماعي.يعتمد نموذجنا على خصائص المشكلة وخصائص ASTDDings Word السياقي لاستخراج وجهات نظرتين من المستندات.ثم يتم تدريب المصنف على كل طريق ة عرض لتسمية مجموعة من المستندات غير المستخدمة لاستخدامها كتهيئة لتصنيف جديد في الرأي الآخر.أخيرا، يتم تدريب المصنف التهيئي في كل طريقة عرض باستخدام أمثلة التدريب الأولي.قمنا بتقييم نموذجنا في أكبر مجموعة بيانات ADR المتاحة للجمهور.تشهد التجارب أن نموذجنا يتفوق بشكل كبير على النماذج القائمة على المحولات مسبقا على البيانات الخاصة بالمجال.
يفهم فهم الوسيلة اللغوية على نطاق واسع بنفس أهمية مهام المصب مثل الإجابة على السؤال ورسم الرسم البياني المعرفي.قد يتوقع أيضا الاستفادة من التعلم الرسم البياني الاستيباري من الاهتمام بالطريقة.نقوم ببناء الرسوم البيانية الاستيبارية باستخدام Corpus News التي تمت تصفيتها مع محلل طريقة، وإظهار أن معدلات تجريد مشروط من المسندات في الواقع تزيد الأداء.هذا يشير إلى أنه بالنسبة لبعض المهام، فإن البراغماتية لتعديل مشروط للندوات يسمح لهم بالمساهمة كدليل على الاستلام.
يتطلب الإجابة السؤال المنطوقة (SQA) فهما غريبا من الوثائق والأسئلة المنطوقة للتنبؤ بالأجواب المثلى. في هذه الورقة، نقترح خطط تدريبية جديدة للسؤال المستحضر الرد على مرحلة تدريب ذاتية الإشراف ومرحلة تعليم التمثيل المتعاقبة. في المرحلة الإشراف ذاتيا، نق ترح ثلاث مهام إضافية للإشراف على الذات، بما في ذلك استعادة الكلام وإدراج الكلام، والتمييز على السؤال، وتدريب النموذج المشترك على التقاط الاتساق والتماسك بين وثائق الكلام دون أي بيانات أو شروح إضافية. بعد ذلك اقترحنا تعلم تمثيلات الكلام الثغري في الضوضاء في هدف مرتعيض من خلال اعتماد استراتيجيات تكبير متعددة، بما في ذلك حذف الأمان والإحلال. علاوة على ذلك، نقوم بتصميم اهتمام مؤقت للمحاذاة بمحاذاة أدلة نص الكلام في المساحة المشتركة المستفادة ويفيد مهام SQA. بهذه الطريقة، يمكن أن توجه مخططات التدريب بشكل أكثر فعالية نموذج الجيل للتنبؤ بأجوبة أكثر سليمة. تظهر النتائج التجريبية أن نموذجنا يحصل على نتائج أحدث النتائج على ثلاثة معايير SQA. سيتم توفير الكود الخاص بنا علنا ​​بعد النشر.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا