ترغب بنشر مسار تعليمي؟ اضغط هنا

التقييم التجريبي للمحولات المدربين مسبقا ل NLP على المستوى البشري: دور حجم العينة والأبعاد

Empirical Evaluation of Pre-trained Transformers for Human-Level NLP: The Role of Sample Size and Dimensionality

538   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في مهام NLP ذات المستوى البشري، مثل التنبؤ بالصحة العقلية أو الشخصية أو التركيبة السكانية، غالبا ما يكون عدد الملاحظات أصغر من أحجام الحالة الخفية 768+ في كل طبقة داخل نماذج اللغة الحديثة القائمة على المحولات، مما يحد من القدرة على النفوذ بشكل فعال محولات. هنا، نحن نقدم دراسة منهجية حول دور أساليب خفض البعد (تحليل المكونات الرئيسية وتقنيات العظام أو الترميز التلقائي متعدد الطبقات) بالإضافة إلى أبعاد مضاعفات تضمين وأحجام العينات كدالة للأداء التنبؤي. نجد أولا أن النماذج الكبيرة التي تؤديها بشكل جيد مع كمية محدودة من البيانات تشكل صعوبة كبيرة يمكن التغلب عليها مع نظام الحد من البعد المدرب مسبقا. يحقق روبرتا باستمرار الأداء الأعلى في المهام على المستوى البشري، مع إعطاء PCA فائدة على أساليب الخلل الأخرى في التعامل بشكل أفضل للمستخدمين الذين يكتبون نصوص أطول. أخيرا، نلاحظ أن غالبية المهام تحقق نتائج مماثلة لأفضل أداء مع 1/12 فقط من أبعاد التضمين.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نبحث عن مشكلة الاختلال العظيمة في أبحاث معالجة اللغات الطبيعية، وهذا يعني ببساطة أن تعريف المشكلة لا يتماشى مع الطريقة المقترحة والتقييم البشري لا يتماشى مع التعريف ولا الطريقة.ندرس هذه المشكلة الاختلافة من خلال مسح 10 ورقات أخذ عينات عشوائيا منش ورة في ACL 2020 التي ينتج عنها التقرير البشري.تظهر نتائجنا أن ورقة واحدة فقط كانت متوافقة تماما من حيث تعريف المشكلة والطريقة والتقييم.قدمت ورقتين فقط تقييم بشري يتماشى مع ما تم تصميمه في الطريقة.وتسليط الضوء على هذه النتائج أن مشكلة الاختلافة العظيمة هي رئيسة كبيرة وتؤثر على صحة وتطوير النتائج التي حصل عليها تقييم بشري.
مجردة أن هذه الدراسة تنفذ تقييم جوهري منهجي للتمثيل الدلالي الذي تعلمته المحولات متعددة الوسائط المدربة مسبقا. يزعم هذه التمثيلات أنها غير ملائمة للمهمة وأظهرت للمساعدة في العديد من مهام اللغة والرؤية المصب. ومع ذلك، فإن المدى الذي يتماشى فيه مع الحد س الدلالي البشري لا يزال غير واضح. نقوم بتجربة نماذج مختلفة والحصول على تمثيلات كلمة ثابتة من تلك السياق التي يتعلمونها. ثم قمنا بتقييمها ضد الأحكام الدلالية التي قدمها مكبرات الصوت البشرية. تمشيا مع الأدلة السابقة، نلاحظ ميزة معممة للتمثيلات متعددة الوسائط على اللغات فقط على أزواج كلمة ملموسة، ولكن ليس على تلك المجردة. من ناحية، يؤكد ذلك فعالية هذه النماذج لمحاذاة اللغة والرؤية، مما يؤدي إلى تحسين تمثيلات الدلالية للمفاهيم التي ترتكز في الصور. من ناحية أخرى، تبين أن النماذج تتبع أنماط تعليم التمثيل المختلفة، والتي سفي بعض الضوء على كيفية وعند تنفيذ تكامل متعدد الوسائط.
هدف البحث إلى تقدير أثر حجم العينة على قوة اختبار (t) لعينة واحدة، و لعينتين مترابطتين، و كذلك لعينتين مستقلتين، و على قوة اختبار تحليل التباين الأحادي (F) للمقارنة بين المتوسطات الحسابية. و قد تم استخدام المنهج الوصفي، و تم استخدام أحجام مختلفة م ن العينات ( 300 ) مشاىدة إحصائية، حيث تم توليدها باستخدام برنامج (PASS 14) و روعي أن تتحقق في هذه البيانات مجموعة الافتراضات اللازمة لاختباري (F) و (t) سواء فيما بتعلق بالاختيار العشوائي، مستوى القياس الفئوي، التوزيع الاعتدالي، تجانس التباين.
هذه الاستعراضات الورقة وتلخص ممارسات التقييم البشري الموضحة في 97 ورقة نقل النمط فيما يتعلق بثلاثة جوانب التقييم الرئيسية: نقل النمط، والمعنى بالحفظ، والطلاقة.من حيث المبدأ، يجب أن تكون التقييمات من قبل راتبي البشر هي الأكثر موثوقية.ومع ذلك، في أوراق نقل النمط، نجد أن بروتوكولات التقييمات البشرية غالبا ما تكون غير محددة وغير موحدة، والتي تعيق استنساخ البحث في هذا المجال والتقدم نحو أساليب تقييم بشرية وتلقائية أفضل.
يهدف البحث إلى وضع بعض الصيغ المعبرة عن حجم العينة و توصيفها والمقارنة فيما بينها لتحديد الصيغة الأفضل من بين تلك الصيغ لحساب حجم العينة وإيجاد صيغة معدلة تعبر تعبيراً جيداً عن حجم العينة ، بالإضافة إلى تحديد حدي الاشباع الأول والثاني للصيغ ذات الصلة ووضع معادلات رياضية يمكن من خلالها التنبؤ بحجم العينة مهما بلغ حجم المجتمع . توصل الباحث من خلال دراسته إلى النتائج الآتية: - إن النتائج كانت متطابقة بالنسبة للصيغ ذات الصلة بحجم المجتمع وحجم العينة عند توحيد شروطها. - لم يزدد حجم العينة معنوياً مع زيادة حجم المجتمع عند حد الاشباع الأول . - لا توجد فروق معنوية بين حجمي العينة وفقا لحجم المجتمع عند حدي الاشباع . - توجد فروق معنوية بين حجم العينة ومتوسط إجمالي الفحص وفقاً لحجم المجتمع عند حدي الاشباع . - حصلنا على نماذج رياضية للعلاقة بين حجم المجتمع وحجم العينة وكذلك بين حجم المجتمع ومتوسط اجمالي الفحص . - توصلنا إلى وضع جدول شامل يعطينا حجم العينة المقابل لحجم المجتمع يمكن أن يكون في متناول الباحثين للاستفادة منه والاستغناء عن تطبيق الصيغ طالما هو يعتمد عليها بالأصل عند شروط معينة

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا