ترغب بنشر مسار تعليمي؟ اضغط هنا

ما مقدار البيانات التي تحذر بها نماذج اللغة التي تحتاج إلى تعلم بناء الجملة؟

How much pretraining data do language models need to learn syntax?

538   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يحقق نماذج اللغة المستردة مسبقا للمحولات نتائج رائعة في العديد من معايير NLU المعروفة. ومع ذلك، في حين أن أساليب المحاكمات مريحة للغاية، فهي مكلفة من حيث الوقت والموارد. هذا يدعو إلى دراسة تأثير حجم البيانات المحدد على معرفة النماذج. نستكشف هذا التأثير على القدرات النحوية لروبيرتا، باستخدام النماذج المدربة على الأحجام الإضافية لبيانات النص الخام. أولا، نستخدم التحقيقات الهيكلية النحوية لتحديد ما إذا كانت الطرز المحددة على مزيد من البيانات ترمز كمية أعلى من المعلومات النحوية. ثانيا، نقوم بإجراء تقييم نصلي مستهدف لتحليل تأثير حجم البيانات المحدد على أداء التعميم النحوي للنماذج. ثالثا، قارنا أداء النماذج المختلفة على ثلاثة تطبيقات المصب: وضع علامات جزء من الكلام وتحليل التبعية وإعادة صياغة الحساب. نحن نتكمل دراستنا بتحليل مفاضلة التكلفة - المنفعة للتدريب مثل هذه النماذج. تظهر تجاربنا أنه في حين أن النماذج المحددة على مزيد من البيانات ترمز المزيد من المعرفة النحوية وأداء أفضل في تطبيقات المصب، فإنها لا تقدم دائما أداء أفضل عبر الظواهر الأساسية المختلفة وتأتي بتكلفة مالية وبيئية أعلى.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، يمكننا التحقيق في أنواع المعلومات النمطية التي يتم التقاطها عن طريق نماذج اللغة المحددة مسبقا.نقدم بيانات البيانات الأولى التي تشمل السمات النمطية لمجموعة من المجموعات الاجتماعية واقتراح طريقة لاستزاز الصور النمطية المشفرة من قبل نماذج اللغة المحددة في أزياء غير منشأة.علاوة على ذلك، نربط النمط النمطية الناشئة على مظاهرهم كعاطرات أساسية كوسيلة لدراسة آثارهم العاطفية بطريقة أكثر تعميم.لإظهار كيف يمكن استخدام أساليبنا لتحليل نوبات المشاعر والنمطية بسبب التجربة اللغوية، نستخدم ضبطها بشكل جيد على مصادر الأخبار كدراسة حالة.تعرض تجاربنا كيف تختلف المواقف تجاه مجموعات اجتماعية مختلفة عبر النماذج وكيف يمكن أن تحول العواطف والقوالب النمطية بسرعة في مرحلة ضبط الدقيقة.
تعتبر العلامات الموثوقة للتعبيرات الزمنية (TES، على سبيل المثال، كتاب طاولة في L'Osteria مساء الأحد) هو الشرط المركزي للمساعدين الصوتيين (VAS).ومع ذلك، هناك ندرة الموارد والأنظمة لنطاق VA، حيث يتم تدريب التقنيص الزمني المتاحين علنا فقط على مجالات مخت لفة إلى حد كبير، مثل الأخبار والنص السريري.نظرا لأن تكلفة التسجيل في مجموعات البيانات الكبيرة عبارة عن محظور، فإننا نحقق في المفاضلة بين البيانات والأداء داخل المجال في DA-Time، وهو Tagger الزمني الهجين للمجال الإنجليزي VA الذي يجمع بين الهندسة المعمارية العصبية للاعتراف القوي، مع محللباس te نومي.نجد أن التعلم النقل يقطع شوطا طويلا حتى مع وجود 25 جمل داخل المجال: يؤدي DA-Time في حالة الفن في مجال الأخبار، وتفوقه بشكل كبير على نطاق VA.
نقدم تحليل خطأ في Taggers UPOS العصبية لتقييم سبب استخدام علامات الذهب هذه المساهمة الإيجابية الكبيرة في تحليل الأداء أثناء استخدام UPOS المتوقع إما للأداء أو يقدم تحسنا ضئيلا.نقوم أيضا بتقييم ما يتعلمه محلل التبعية العصبية ضمنيا حول أنواع الكلمات وك يف يتعلق الأمر بعملية الأخطاء التي يصنعها Taggers، لشرح التأثير الأدنى باستخدام علامات المتوقع على المحللين.ثم نقنع علامات UPOS بناء على أخطاء مصنوعة من Tagers لإطفاء مساهمة علامات UPOS تنجح Taggers وتفشل في تصنيفها بشكل صحيح وتأثير وضع العلامات على الأخطاء.
يدقق هذا البرنامج التعليمي أحدث التقدم التقني في التحليل النحوي ودور بناء الجملة في مهام معالجة اللغة الطبيعية المناسبة (NLP)، حيث يتمثل الترجمة الدلالية في الدورات الدلالية (SRL) والترجمة الآلية (MT) المهام التي لديهاكان دائما مفيدا من أدلة النحوية الإعلامية منذ فترة طويلة، على الرغم من أن التقدم من طرازات التعلم العميق المنتهي في النهاية يظهر نتائج جديدة.في هذا البرنامج التعليمي، سنقدم أولا الخلفية وأحدث التقدم المحرز في التحليل النحوي و SRL / NMT.بعد ذلك، سنلخص الأدلة الرئيسية حول التأثيرات النحوية على هذين المهامين المتعلقين، واستكشاف الأسباب وراء كل من الخلفيات الحسابية واللغوية.
غالبا ما يستخدم البشر استخدام اللغة التصويرية في التواصل، بما في ذلك أثناء التفاعلات مع أنظمة الحوار. وبالتالي، من المهم أن تكون أنظمة الحوار في العالم الحقيقي لتتمكن من التعامل مع اللغة التصويرية الشعبية تشبه الاستعارة والاشتراك. في هذا العمل، نقوم بتحليل أداء نماذج الحوار الموجودة في المواقف التي يعرضها سياق مربع حوار المدخلات استخدام اللغة التصويرية. نلاحظ فجوات كبيرة في التعامل مع اللغة التصويرية عند تقييم النماذج في مجموعات بيانات حوار المجال المفتوحة. عند مواجهة سياقات الحوار تتكون من لغة مجازية، تظهر بعض النماذج قطرات كبيرة جدا في الأداء مقارنة بالسياقات دون لغة مجازية. نحن نشجع البحث في المستقبل في نمذجة الحوار إلى التحليل بشكل منفصل وتقرير النتائج على اللغة المجازية من أجل تحسين قدرات النماذج بشكل أفضل من استخدام العالم الحقيقي. أخيرا، نقترح حلول خفيفة الوزن لمساعدة النماذج الحالية على أن تصبح النماذج الحالية أكثر قوة في اللغة التصويرية ببساطة عن طريق استخدام مورد خارجي لترجمة اللغة التصويرية إلى النماذج الحرفية (غير المجازة) مع الحفاظ على معنى أكبر قدر ممكن من الأصفار.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا