ترغب بنشر مسار تعليمي؟ اضغط هنا

gpt3mix: الاستفادة من نماذج اللغة واسعة النطاق لتعزيز النص

GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation

508   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نماذج اللغة واسعة النطاق مثل GPT-3 هي متعلمين بقلة قليلة، مما يتيح لهم السيطرة عليها عبر مطالبات النص الطبيعي. أبلغ الدراسات الحديثة أن التصنيف المباشر الفوري يزيل الحاجة إلى ضبط الدقيقة ولكن يفتقر إلى إمكانية التوسع للبيانات والاستدلال. تقترح هذه الورقة تقنية تكبير بيانات جديدة ترفع نماذج لغة واسعة النطاق لتوليد عينات نصية واقعية من مزيج من العينات الحقيقية. نقترح أيضا استخدام الملصقات الناعمة المتوقعة من النماذج اللغوية، وتقطير المعرفة بفعالية من نماذج اللغة واسعة النطاق وإنشاء اضطرابات نصية في وقت واحد. نقوم بإجراء تجارب تكبير البيانات على مهام التصنيف المتنوعة وإظهار أن طريقتنا تتفوق بشكل كبير على أساليب تكبير النص الحالية. نقوم أيضا بإجراء تجارب في معيارنا المقترح حديثا لإظهار أن تأثير تكبير لا يعزى فقط إلى الحفظ. مزيد من دراسات الاجتثاث والتحليل النوعي توفر المزيد من الأفكار في نهجنا.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

إن التحدي الرئيسي في السؤال الرد على قواعد المعرفة (KBQA) هو التناقض بين أسئلة اللغة الطبيعية ومسارات المنطق في قاعدة المعرفة (KB). أساليب KBQA القائمة على الرسم البياني في الرسم البياني هي جيدة في استيعاب هيكل الطوبولوجي للرساه الرسم ولكن غالبا ما ت جاهل المعلومات النصية التي تحملها العقد والحواف. وفي الوقت نفسه، تتعلم نماذج اللغة المدربة مسبقا معرفة ضخمة مفتوحة عالمية من الكائنات الكبيرة، ولكنها في شكل اللغة الطبيعية وليس منظم. لسد الفجوة بين اللغة الطبيعية و KB الهيكلية، نقترح ثلاث مهام تعلم العلاقة ل KBQA القائم على BERT، بما في ذلك استخراج العلاقة ومطابقة العلاقات والمعاقين. عن طريق التدريب المعزز في العلاقة، يتعلم النموذج مواءمة تعبيرات اللغات الطبيعية للعلاقات في KB وكذلك السبب في الروابط المفقودة في KB. تظهر التجارب على WebQSP أن طريقتنا تتفوق باستمرار على خطوط الأساس الأخرى، خاصة عندما تكون KB غير مكتملة.
تعرض GPT-3 قدرة تعليمية ملحوظة في السياق من نماذج اللغة واسعة النطاق (LMS) المدربين على مئات البيانات بمليارات النطاق. نحن هنا تعالج بعض المشكلات المتبقية أقل إبلاغ عن ورق GPT-3، مثل LM غير الإنجليزية، وعروض النماذج المختلفة الحجم، وتأثير التحسين الف وري الذي قدم مؤخرا على التعلم في السياق. لتحقيق ذلك، نقدم Hyperclova، وهو متنقل كوري من 82B GPT-3 المدربين على كوربوس كوري مرئد من الرموز 560B. يعرض HyperClova المعزز من خلال رفيعنا الكوري الخاص بنا، ويعزز HyperClova مع تكوين التدريب لدينا أحدث أداء التعلم الصفرية في السياق وعدد قليل من الأداء في مهام المصب المختلفة في الكورية. أيضا، نعرض فوائد أداء التعلم الفوري وإظهار كيفية دمجه في خط أنابيب الهندسة السريعة. ثم نناقش إمكانية تحقيق نموذج لا يوجد رمز من خلال توفير قدرات النماذج الأولية ل AI لغير خبراء ML عن طريق إدخال ستوديو HyperClova، وهي واجهة هندسة سريعة التفاعلية. أخيرا، نوضح إمكانات أساليبنا بثلاث تطبيقات ناجحة في المنزل.
على الرغم من الأداء الرائع للنماذج التوليدية واسعة النطاق في محادثة مفتوحة، من المعروف أنها أقل عملية لبناء أنظمة محادثة في الوقت الفعلي بسبب ارتفاع الكمون. من ناحية أخرى، يمكن أن تعيد نماذج استرجاع الردود بأشياء أقل بكثير ولكنها تظهر أداء أدنى للنما ذج الإدارية على نطاق واسع لأن جودة المحادثة تحدها مجموعة استجابة محددة مسبقا. للاستفادة من كلتا النهجين، نقترح طريقة تدريب جديدة تسمى G2R (التقطير الاسترجلي من الاسترجاع) التي تحافظ على كفاءة نموذج استرجاع مع الاستفادة من القدرة على التحدث نموذجا إيديا واسع النطاق عن طريق غرس المعرفة بالتوليد نموذج في نموذج الاسترجاع. تتكون G2R من تقنيتين متميزتين من التقطير: يعزز G2R على مستوى البيانات مجموعة بيانات الحوار مع ردود إضافية النموذج المولد النطاق، وينقل G2R على مستوى النموذج درجة جودة الاستجابة التي تم تقييمها بواسطة نموذج التوليد إلى درجة نموذج الاسترجاع عن طريق فقدان المعرفة في التقطير. من خلال تجارب واسعة بما في ذلك التقييم البشري، نوضح أن نظام المحادثة المستندة إلى استرجاعنا المدربين مع G2R يدل على أداء محسن بشكل كبير مقارنة بنموذج استرجاع الأساس أثناء إظهار زمن الاستدلال الأساسي بشكل كبير من النماذج الإدارية على نطاق واسع.
يظهر التطوير الحديث في NLP اتجاها قويا نحو تكرير النماذج المدربة مسبقا مع مجموعة بيانات خاصة بالمجال. هذا هو الحال بشكل خاص لتوليد الاستجابة حيث تلعب العاطفة دورا مهما. ومع ذلك، لا تزال مجموعات البيانات المتعاطفية الحالية صغيرة وتأخير الجهود البحثية في هذا المجال، على سبيل المثال، تطوير Chatement-Aware Chatbots. كان التحدي الفني الرئيسي واحد هو تكلفة التسجيل يدويا الحوارات مع ملصقات العاطفة المناسبة. في هذه الورقة، نصف مجموعة بيانات فضية واسعة النطاق تتكون من حوارات من 1M المشروح ب 32 عواطف دقيقة، وثمانية نوايا استجابة متعاطفية، والفئة المحايدة. لتحقيق هذا الهدف، قمنا بتطوير خط أنابيب لجنة البيانات الرواية بدءا من بذرة صغيرة من البيانات المشروحة يدويا وتوسيع نطاقها في نهاية المطاف إلى حجم مرض. قمنا بمقارنة جودةها مقابل مجموعة بيانات ذهبية أحدث باستخدام كل من التجارب دون اتصال وطرائق التحقق من الصحة. يمكن استخدام الإجراء الناتج لإنشاء مجموعات بيانات مماثلة في نفس المجال وكذلك في المجالات الأخرى.
دقة Aqueference Coreference Coreence هي مهمة مؤسسية لتطبيقات NLP التي تنطوي على معالجة النص المتعدد. ومع ذلك، فإن شركة كوربيا الحالية لهذه المهمة نادرة وصغيرة نسبيا، بينما تعلق فقط مجموعات من المستندات المتواضعة فقط من الوثائق التي تنتمي إلى نفس المو ضوع. لاستكمال هذه الموارد وتعزيز البحوث المستقبلية، نقدم حفل الحدث في ويكيبيديا (WEC)، وهي منهجية فعالة لجمع مجموعة بيانات واسعة النطاق لحدث الحدث عبر المستندات من ويكيبيديا، حيث لا يتم تقييد روابط Coreference داخل مواضيع محددة مسبقا. نحن نطبق هذه المنهجية على Wikipedia الإنجليزية واستخراج مجموعة بيانات WEC-ENG الواسعة النطاق. وخاصة، طريقة إنشاء DataSet لدينا عام ويمكن تطبيقها مع القليل من الجهود الأخرى لغات ويكيبيديا الأخرى. لضبط نتائج خط الأساس، نقوم بتطوير خوارزمية تتكيف مع مكونات النماذج الحديثة في دقة COMERACARY داخل الوثيقة إلى إعداد المستندات عبر المستندات. النموذج لدينا هو فعال بشكل مناسب وتفوق النتائج التي تم نشرها سابقا من النتائج التي تم نشرها مسبقا للمهمة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا