ترغب بنشر مسار تعليمي؟ اضغط هنا

"" متوسط "" تقريب "أول عنصر رئيسي"؟تحليل تجريبي حول التمثيلات من نماذج اللغة العصبية

``Average'' Approximates ``First Principal Component''? An Empirical Analysis on Representations from Neural Language Models

324   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تعاونت التمثيلات السياقية القائمة على نماذج اللغة العصبية حالة الفن في مختلف مهام NLP. على الرغم من نجاحها الكبير، فإن طبيعة هذه التمثيل لا تزال سرية. في هذه الورقة، نقدم ملكية تجريبية لهذه التمثيلات --- "المتوسط" "تقريب أول عنصر رئيسي". على وجه التحديد، تظهر التجارب أن متوسط ​​هذه التمثيل يشارك نفس الاتجاه تقريبا مثل العنصر الرئيسي الأول في المصفوفة التي تعد أعمدة هذه التمثيلات. نعتقد أن هذا يفسر لماذا تمثيل متوسط ​​هو دائما خط أساس بسيط ولكنه قوي. تظهر امتحاناتنا الإضافية أن هذه الخاصية تعقد أيضا سيناريوهات أكثر تحديا، على سبيل المثال، عندما تكون التمثيلات من نموذج مباشرة بعد تهيئةها العشوائية. لذلك، نحن نقوم بالتخمين أن هذه الخاصية هي جوهرية لتوزيع التمثيلات وعدم الصلة بالضرورة بنية الإدخال. نحن ندرك أن هذه التمثيلات متابعة تجريبيا توزيعا طبيعيا لكل بعد، ومن خلال افتراض أن هذا صحيح، نوضح أن الممتلكات التجريبية يمكن أن تكون في الواقع رياضيا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

أصبحت نماذج لغة كبيرة مسببة الاحترام باستخدام بنية الشبكة العصبية المحولات هي منهجية مهيمنة للعديد من مهام معالجة اللغة الطبيعية، مثل الإجابة على الأسئلة، تصنيف النص، غموض معنى الكلمة، إكمال النص والترجمة الآلية. عادة ما تضم ​​مئات الملايين من المعلم ات، فإن هذه النماذج تقدم أداء حديثة، ولكن على حساب قابلية الترجمة الشفوية. آلية الاهتمام هي العنصر الرئيسي لشبكات المحولات. نقوم بتقديم Attviz، وهي طريقة لاستكشاف اهتمام الذات في شبكات المحولات، والتي يمكن أن تساعد في تفسير وتصحيح الأخطاء من النماذج المدربة من خلال إظهار الجمعيات بين الرموز النصية في تسلسل الإدخال. نظهر أن خطوط أنابيب التعلم العميق الحالية يمكن استكشافها مع Attviz، والذي يوفر تصورات رواية لرؤوس الانتباه وتجميعها. نفذنا الأساليب المقترحة في مجموعة أدوات عبر الإنترنت ومكتبة دون اتصال. باستخدام أمثلة من تحليل الأخبار، نوضح كيف يمكن استخدام ATVIZ للتفتيش والحدوث على فهم أفضل ما تعلمه النموذج.
تتيح المعالجة الإضافية أنظمة تفاعلية تستجيب بناء على المدخلات الجزئية، وهي خاصية مرغوبة على سبيل المثال في عوامل الحوار. تقوم بنية المحولات الشعبية حاليا بطبيعتها بمعالجة التسلسلات ككل، تجرد فكرة الوقت. محاولات العمل الحديثة لتطبيق المحولات بشكل تدري جي عن طريق إعادة التشغيل - تدريجيا من خلال التغذية بشكل متكرر، إلى نموذج غير متقلب، بادئات إدخال أطول بشكل متزايد لإنتاج مخرجات جزئية. ومع ذلك، فإن هذا النهج مكلف بشكل حسابي ولا يتجادل بكفاءة للتسلسل الطويل. بالتوازي، نشهد جهود لجعل المحولات أكثر كفاءة، على سبيل المثال المحول الخطي (LT) مع آلية تكرار. في هذا العمل، ندرس جدوى LT ل NLU تدريجي باللغة الإنجليزية. تبين نتائجنا أن نموذج LT المتكرر لديه أفضل أداء تدريجي وسرعة الاستدلال أسرع مقارنة بالمحول القياسي واللفنت مع إعادة التشغيل التدريجي، بتكلفة جزء من جودة غير متزايدة (التسلسل الكامل). نظرا لأن إسقاط الأداء يمكن تخفيفه عن طريق تدريب النموذج لانتظار السياق الصحيح قبل الالتزام بإخراج وأن التدريب بادئة الإدخال مفيد لتقديم المخرجات الجزئية الصحيحة.
ندرس مشكلة توليد نص موادي لتصنيف كوسيلة لفهم وتصحيح التصحيح. بالنظر إلى إدخال نصي ونموذج تصنيف، نهدف إلى تغيير النص الصغير لتغيير تنبؤ النموذج. تم تطبيق نهج الصندوق الأبيض بنجاح على مشاكل مماثلة في الرؤية حيث يمكن للمرء تحسين المدخلات المستمرة مباشرة . تصبح النهج القائمة على التحسين صعبة في مجال اللغة بسبب الطبيعة المنفصلة للنص. نحن نتجاوز هذه المشكلة من خلال تحسين مباشرة في المساحة الكامنة والاستفادة من نموذج لغة لإنشاء تعديلات مرشحة من تمثيلات كامنة محسنة. نحن بالإضافة إلى استخدام قيم SHOPLEY لتقدير تأثير COMPINATIC من التغييرات المتعددة. ثم نستخدم هذه التقديرات لتوجيه بحث الشعاع عن النص النهائي العالمي. نحن نحقق أداء مواتية مقارنة بالبضعة البيضاء الحديثة والسود الأسود باستخدام التقييمات البشرية والآلية. تشير دراسات الاجتثاث إلى أن كل من الأمثل الكامنة واستخدام قيم shabley يحسن معدل النجاح ونوعية الوسائل المتعددة الناتجة.
حصلت نماذج اللغة العصبية عالية الأداء على نتائج أحدث النتائج على مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، غالبا ما لا تعكس نتائج البيانات القياسية المشتركة الموثوقية النموذجية والمتانة عند تطبيقها على بيانات صاخبة عالمية حقيقية. في هذه الدراسة، نقوم بتصميم وتنفيذ أنواع مختلفة من أساليب الاضطرابات على مستوى الأحرف ومستوى الكلمة لمحاكاة السيناريوهات الواقعية التي قد تكون فيها نصوص الإدخال صاخبة قليلا أو مختلفة عن توزيع البيانات التي تم تدريبها على أنظمة NLP عليها. إجراء تجارب شاملة على مهام NLP المختلفة، فإننا نبحث في قدرة نماذج اللغة العالية الأداء مثل Bert و Xlnet و Roberta و ELMO في التعامل مع أنواع مختلفة من اضطرابات الإدخال. تشير النتائج إلى أن نماذج اللغة حساسة للاضطرابات الإدخال ويمكن أن تنخفض أدائها حتى عند تقديم تغييرات صغيرة. نسلط الضوء على هذه النماذج تحتاج إلى مزيد من المحسن وأن المعايير الحالية لا تعكس متانة النموذج جيدا. نقول أن التقييمات بشأن المدخلات المضطربة يجب أن تكمل المعايير المستخدمة بشكل روتيني من أجل تحقيق فهم أكثر واقعية لمتانة أنظمة NLP.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا