ترغب بنشر مسار تعليمي؟ اضغط هنا

تقطير المعرفة مع ملصقات صاخبة لفهم اللغة الطبيعية

Knowledge Distillation with Noisy Labels for Natural Language Understanding

457   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتم استخدام تقطير المعرفة (KD) على نطاق واسع لضغط ونشر نماذج لغة كبيرة مدربة مسبقا على أجهزة EDGE لتطبيقات العالم الحقيقي.ومع ذلك، فإن مساحة البحث واحدة مهملة هي تأثير الملصقات الصاخبة (التالفة) على KD.نقدم، إلى حد علمنا، أول دراسة حول الملكية الدماغية مع ملصقات صاخبة في فهم اللغة الطبيعية (NLU).نحن توثق نطاق المشكلة وتقديم طريقتين لتخفيف تأثير ضوضاء التسمية.تشير التجارب على مرجع الغراء إلى أن أساليبنا فعالة حتى تحت مستويات ضوضاء عالية.ومع ذلك، تشير نتائجنا إلى أن المزيد من البحث ضروري للتعامل مع ضجيج الملصقات تحت KD.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن ندرس تحليل عمرو متعدد اللغات من منظور تقطير المعرفة، حيث يكون الهدف هو تعلم وتحسين محلل عمرو متعدد اللغات باستخدام محلل إنجليزي موجود كمعلم لها.نحن تقيد استكشافنا في إعداد صارم متعدد اللغات: هناك نموذج واحد لتحليل جميع اللغات المختلفة بما في ذلك اللغة الإنجليزية.نحدد أن المدخلات الصاخبة والإخراج الدقيق هي مفتاح التقطير الناجح.جنبا إلى جنب مع التدريب المسبق الواسع، نحصل على محلل عمري الذي يتجنب عروضه جميع النتائج التي تم نشرها مسبقا على أربعة لغات أجنبية مختلفة، بما في ذلك الهوامش الألمانية والإسبانية والإيطالية والصينية، بواسطة هوامش كبيرة (تصل إلى 18.8 نقطة برائحة على الصينية وفي المتوسط 11.3نقاط smatch).يحقق محللنا أيضا أداء قابلا للمقارنة على اللغة الإنجليزية إلى أحدث المحللين باللغة الإنجليزية فقط.
في هذه الورقة، نطبق تقطير المعرفة الذاتية لتلخيص النص الذي نقوله أنه يمكن أن يخفف من مشاكل في الحد الأقصى للتدريب احتمالية على مجموعات بيانات مرجعية واحدة وصاخبة.بدلا من الاعتماد على ملصقات توضيحية ذات ساخنة واحدة، يتم تدريب نموذج تلخيص الطلاب لدينا مع توجيهات من المعلم الذي يولد ملصقات سلاسة للمساعدة في تنظيم التدريب.علاوة على ذلك، لتحسين نموذج عدم اليقين أثناء التدريب، نقدم إشارات متعددة الضوضاء لكل من نماذج المعلم والطلاب.نوضح تجريبيا في ثلاثة معايير أن إطار عملائنا يعزز أداء كل من الملاحظات المحددة أو غير مسبوقة تحقيق نتائج حالة من الفنون.
أظهرت نماذج اللغة الموجودة مسبقا مسبقا (PLMS) فعالية التعلم الإشراف على الذات لمجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، فإن معظمهم لا يدركون بشكل صريح المعرفة الخاصة بالمجال، وهو أمر ضروري لمهام المصب في العديد من المجالات، مثل المه ام في سيناريوهات التجارة الإلكترونية. في هذه الورقة، نقترح K- المكونات، نموذج لغة محقوم المعرفة مسبقا بناء على محول تشفير التشفير التي يمكن تحويلها إلى كل من فهم اللغة الطبيعية ومهام الجيل. على وجه التحديد، نقترح خمسة أهداف مسبقة الإشراف على علم المعرفة على المعرفة في تصميم تعلم المعرفة الخاصة بالمجال، بما في ذلك قواعد المعرفة الخاصة بالمجال التجاري، وجوانب كيانات المنتج، وفئات من كيانات المنتجات، ومقترحات البيع الفريدة من كيانات المنتج. نتحقق من طريقتنا في مجموعة متنوعة من سيناريوهات التجارة الإلكترونية التي تتطلب معرفة خاصة بالمجال، بما في ذلك إكمال قاعدة معارف المنتج، وخصم منتج مبيعات، والحوار متعدد الدوران. تتفوق K- التوصيل بشكل كبير على خطوط الأساس في جميع المجالات، والتي توضح أن الطريقة المقترحة تتعلم بفعالية مجموعة متنوعة متنوعة من المعرفة الخاصة بالمجال لكل من مهام الفم والجيل اللغوي. رمز لدينا متاح.
نقدم خوارزمية تدريبية مستهدفة بسيطة ولكنها فعالة (TAT) لتحسين التدريب الخصم لفهم اللغة الطبيعية.الفكرة الرئيسية هي أن تخطئ الأخطاء الحالية وتحديد أولويات التدريب على الخطوات إلى حيث يخطئ النموذج أكثر.تظهر التجارب أن TAT يمكن أن تحسن بشكل كبير الدقة ع لى التدريب الخصم القياسي على الغراء وتحقيق نتائج جديدة من أحدث النتائج في XNLI.سيتم إصدار شفرة لدينا عند قبول الورقة.
للحد من حجم النموذج ولكن الاحتفاظ بالأداء، كنا نعتمد في كثير من الأحيان على تقطير المعرفة (دينار كويتي) الذي ينقل المعرفة من نموذج المعلم الكبير إلى نموذج طالب أصغر. ومع ذلك، فإن KD على مجموعات بيانات متعددة الوسائط مثل مهام اللغة الرؤية غير مستكشفة نسبيا، وهضم معلومات متعددة الوسائط تحديا لأن طرائق مختلفة تقدم أنواعا مختلفة من المعلومات. في هذه الورقة، نقوم بإجراء دراسة تجريبية واسعة النطاق للتحقيق في أهمية وآثار كل طريقة في تقطير المعرفة. علاوة على ذلك، نقدم إطارا لتقطير المعرفة متعددة الوسائط، وقطاع التقطير الخاص بالطرياء (MSD)، لنقل المعرفة من المعلم عن مهام متعددة الوسائط عن طريق تعلم سلوك المعلم داخل كل طريقة. تهدف الفكرة إلى تحية التنبؤات الخاصة بنوية المعلم من خلال إدخال شروط الخسائر المساعدة لكل طريقة. علاوة على ذلك، نظرا لأن كل طريقة لها اتفاقية مختلفة بالنسبة للتنبؤات، فإننا نحدد درجات الرافية لكل طريقة وتحقيق في مخططات الترجيح القائم على الرافية للخسائر الإضافية. ندرس نهج تعليم الوزن لمعرفة الأثقال المثلى على شروط الخسارة هذه. في تحليلنا التجريبي، نقوم بفحص اتفاقية كل طريقة في KD، وأوضح فعالية نظام الترجيح في MSD، وإظهار أنه يحقق أداء أفضل من KD على أربعة مجموعات بيانات متعددة الوسائط.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا