ترغب بنشر مسار تعليمي؟ اضغط هنا

الطلاب الذين يدرسون معا يتعلمون بشكل أفضل: على أهمية تقطير المعرفة الجماعية لنقل النطاق في التحقق من ذلك

Students Who Study Together Learn Better: On the Importance of Collective Knowledge Distillation for Domain Transfer in Fact Verification

274   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في حين أن الشبكات العصبية تنتج أداء حديثة في العديد من مهام NLP، إلا أنها تعتمد بشكل عام على المعلومات المعدنية، والتي تنقل بشكل سيئ بين المجالات. اقترحت الأعمال السابقة Delexicalization كشكل من أشكال تقطير المعرفة للحد من الاعتماد على القطع الأثرية المعجمية. ومع ذلك، فإن القضية غير المحتملة النقدية التي لا تزال تظل مقدار delexicalization للتطبيق: يساعد القليل على تقليل التجاوز، ولكن يتجاهل الكثير من المعلومات المفيدة. نقترح التعلم الجماعي، ونهج تقطير المعرفة والنموذجية للتحقق من الحقائق التي تتمتع بها نماذج الطلاب المتعددة إمكانية الوصول إلى وجهات نظر مختلفة من البيانات، ولكن يتم تشجيعها على التعلم من بعضها البعض من خلال خسائر الاتساق الزوجية. في العديد من التجارب عبر المجالات بين مجموعات بيانات التحقق من الحمى و FNC، نوضح أن نهجنا يتعلم أفضل استراتيجية Delexicalization لعملية البيانات التدريبية المعطاة، وتتفوق على المصنفين الحديثة الذين يعتمدون على البيانات الأصلية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم إثبات المشفرات المستندة إلى المحولات المسبدة مسبقا مثل بيرت لتحقيق الأداء الحديث في العديد من مهام NLP العديدة. على الرغم من نجاحهم، فإن ترميز نمط بيرت كبير الحجم ولديها زمن بيانات عالية أثناء الاستدلال (خاصة في آلات وحدة المعالجة المركزية) مما يج علها غير جذابة للعديد من التطبيقات عبر الإنترنت. قدمت أساليب الضغط والتقطير مؤخرا طرقا فعالة لتخفيف هذا القصور. ومع ذلك، فإن محور هذه الأعمال كان أساسا في ترميز أحادي الأونلينغ. بدافع من النجاحات الأخيرة في التعلم عبر التحويل المتبادل في صفر تسديدة باستخدام ترميز مسببات اللغات المسبق، مثل MBERT، فإننا نقيم فعالية تقطير المعرفة (دينار كويتي) خلال مرحلة الاحتجاج وأثناء مرحلة ضبط الدقيقة على نماذج بيرت متعددة اللغات. نوضح أنه في تناقض الملاحظة السابقة في حالة التقطير أحادي الأونلينغ، في الإعدادات المتعددة اللغات، يكون التقطير أثناء الاحتجاز أكثر فعالية من التقطير أثناء ضبط الصفر عن التعلم تحويل الصفر. علاوة على ذلك، فإننا نلاحظ أن التقطير أثناء ضبط الرصيف قد يضر أداء الصفر اللغوي الصفر. أخيرا، نوضح أن تقطير نموذج أكبر (بيرت كبير) ينتج عن أقوى النموذج المقطر الذي يؤدي أفضل سواء على لغة المصدر وكذلك اللغات المستهدفة في إعدادات الطلقة الصفرية.
تجادل الدراسات الحديثة بأن تقطير المعرفة يعد إلى ترجمة الكلام (ST) باستخدام النماذج الطرفية إلى النهاية.في هذا العمل، يمكننا التحقيق في تأثير تقطير المعرفة مع SC CASCADE باستخدام نماذج الترجمة التلقائية للكلام (ASR) ونماذج الترجمة الآلية (MT).نحن نوف ر المعرفة من طراز المعلم بناء على النصوص البشرية لطراز الطلاب بناء على النسخ الخاطئة.أثبتت نتائجنا التجريبية أن تقطير المعرفة مفيد لشارع Cascade.كشف مزيد من التحقيق الذي يجمع تقطير المعرفة والضبط بشكل جيد أن الجمع بين اثنين من أزواج اللغة: الإنجليزية - الإيطالية والإسبانية الإنجليزية.
على الرغم من أن نماذج التدريب المسبق قد حققت نجاحا كبيرا في توليد الحوار، إلا أن أدائها ينخفض ​​بشكل كبير عندما يحتوي المدخلات على كيان لا يظهر في مجموعات بيانات ما قبل التدريب والضبط (كيان غير مرئي). لمعالجة هذه المشكلة، تستفيد الأساليب الحالية لقاع دة المعرفة الخارجية لتوليد الاستجابات المناسبة. في العالم الحقيقي العملي، قد لا يتم تضمين الكيان من قبل قاعدة المعارف أو تعاني من دقة استرجاع المعرفة. للتعامل مع هذه المشكلة، بدلا من إدخال قاعدة المعرفة كإدخال، نقوم بإجبار النموذج على تعلم التمثيل الدلالي الأفضل من خلال التنبؤ بالمعلومات في قاعدة المعرفة، فقط بناء على سياق الإدخال. على وجه التحديد، بمساعدة قاعدة المعرفة، نقدم هدفين تدريبين مساعدين: 1) تفسير الكلمة الملثمين، والتي تخنق معنى الكيان الملثمين بالنظر إلى السياق؛ 2) توليد Hypernym، الذي يتنبأ فرق الكيان بناء على السياق. نتائج التجربة على اثنين من الحوار كوربوس تحقق من فعالية أساليبنا تحت كلا المعرفة والإعدادات المتاحة وغير متوفرة.
للحد من حجم النموذج ولكن الاحتفاظ بالأداء، كنا نعتمد في كثير من الأحيان على تقطير المعرفة (دينار كويتي) الذي ينقل المعرفة من نموذج المعلم الكبير إلى نموذج طالب أصغر. ومع ذلك، فإن KD على مجموعات بيانات متعددة الوسائط مثل مهام اللغة الرؤية غير مستكشفة نسبيا، وهضم معلومات متعددة الوسائط تحديا لأن طرائق مختلفة تقدم أنواعا مختلفة من المعلومات. في هذه الورقة، نقوم بإجراء دراسة تجريبية واسعة النطاق للتحقيق في أهمية وآثار كل طريقة في تقطير المعرفة. علاوة على ذلك، نقدم إطارا لتقطير المعرفة متعددة الوسائط، وقطاع التقطير الخاص بالطرياء (MSD)، لنقل المعرفة من المعلم عن مهام متعددة الوسائط عن طريق تعلم سلوك المعلم داخل كل طريقة. تهدف الفكرة إلى تحية التنبؤات الخاصة بنوية المعلم من خلال إدخال شروط الخسائر المساعدة لكل طريقة. علاوة على ذلك، نظرا لأن كل طريقة لها اتفاقية مختلفة بالنسبة للتنبؤات، فإننا نحدد درجات الرافية لكل طريقة وتحقيق في مخططات الترجيح القائم على الرافية للخسائر الإضافية. ندرس نهج تعليم الوزن لمعرفة الأثقال المثلى على شروط الخسارة هذه. في تحليلنا التجريبي، نقوم بفحص اتفاقية كل طريقة في KD، وأوضح فعالية نظام الترجيح في MSD، وإظهار أنه يحقق أداء أفضل من KD على أربعة مجموعات بيانات متعددة الوسائط.
في هذا العمل، نقوم بتحليل أداء وخصائص نماذج تضمين الكلمة المتبقية التي تم إنشاؤها بواسطة أساليب المحاذاة المستندة إلى تعيين الخرائط.نحن نستخدم العديد من التدابير الخاصة بالجور وضمان التشابه للتنبؤ بعشرات BLI من تعيينات تضمين التضمين عبر اللغات على ثل اثة أنواع من كوربورا وثلاث أساليب تضمين و 55 زوجا للغة.تؤكد نتائجنا التجريبية على أنها بدلا من مجرد حجم، فإن مقدار المحتوى المشترك في Training Corpora ضروري.تتجلى هذه الظاهرة في ذلك) على الرغم من أحجام كوربوس الأصغر، باستخدام الأجزاء المقارنة فقط من ويكيبيديا لتدريب مساحات تضمين الأحادية المهتملة غالبا ما تكون أكثر فعالية من الاعتماد على جميع محتويات ويكيبيديا، 2) أصغر، في المقابلتعمل Wikipedia الأقل متنوعة في ويكيبيديا دائما أفضل بكثير كدولة تدريبية لتعيينات ثنائية اللغة من ويكيبيديا الإنجليزية المستخدمة في كل مكان.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا