ترغب بنشر مسار تعليمي؟ اضغط هنا

أصبحت نماذج لغة المحولات المدربة مسبقا (LM) لتشفيات تمثيل النص.البحث المسبق يلتزم LMS عميق لتشفير تسلسل النص مثل الجمل والمرورات في تمثيلات ناقلات كثيفة واحدة لمقارنة النص وانتبعدة فعالة.ومع ذلك، تتطلب التشفير الكثيفة الكثير من البيانات والتقنيات الم تطورة للتدريب بشكل فعال وتعاني في مواقف البيانات المنخفضة.تجد هذه الورقة سبب رئيسي هو أن هيكل العناية الداخلية القياسية ل LMS غير جاهزة للاستخدام للترميزات الكثيفة، والتي تحتاج إلى إجمالي معلومات نصية في التمثيل الكثيف.نقترح ما قبل القطار نحو التشفير الكثيف مع بنية محول رواية، مكثف، حيث ظروف التنبؤ LM على تمثيل كثيف.تعرض تجاربنا تظهر المكثف يحسن أكثر من LM القياسية من قبل هوامش كبيرة على مهام استرجاع النص المختلفة والتشابه.
أسفرت صعود النماذج اللغوية المدربة مسبقا تقدما كبيرا في الغالبية العظمى من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، يمكن أن يكون النهج العام باتجاه الإجراء المسبق للتدريب بطبيعة الحال في بعض الحالات. بشكل خاص، قم بضبط نموذج لغة مدرب مسبقا في مجال ا لمصدر ثم تطبيقه على نطاق مستهدف مختلف، يؤدي إلى انخفاض أداء حاد من المصنف النهائي للعديد من أزواج المجال المستهدف المصدر. علاوة على ذلك، في بعض مهام NLP، تختلف فئات الإخراج بشكل كبير بين المجالات، مما يجعل التكيف أكثر تحديا. هذا، على سبيل المثال، يحدث في مهمة استخراج الجانب، حيث قد تكون جوانب اهتمام الاستعراضات، على سبيل المثال، المطاعم أو الأجهزة الإلكترونية مختلفة للغاية. تقدم هذه الورقة مخططا جديدا للضبط في بيرت، والتي تهدف إلى معالجة التحديات المذكورة أعلاه. نحن نسمي هذا المخطط Dilbert: تعلم المجال الثابتة مع Bert، وتخصيصه لاستخراج الجانب في إعداد تكيف المجال غير المقترح. يسخر Dilbert المعلومات الفئوية لكل من المصدر والمجالات المستهدفة لتوجيه عملية التدريب المسبق نحو تمثيل ثنائي النطاق والفئة، مما يغلق الفجوة بين المجالات. نظهر أن Dilbert يعطي تحسينات كبيرة على خطوط الأساس الحديثة أثناء استخدام جزء صغير من البيانات غير المسبقة، لا سيما في إعدادات تكيف مجال أكثر تحديا.
تحميل النماذج المدربة مسبقا على الكائنات الكبيرة على نطاق واسع في المجال العام وتوضعها على مهام محددة من المصب هي تدريجيا نموذجا في معالجة اللغة الطبيعية. يمكن أن تثبت التحقيقات السابقة أن إدخال مراحل ما قبل التدريب الإضافي بين مراحل ما قبل التدريب و الضبط بشكل جيد لتكييف النموذج على البيانات الخاصة بالمجال الخاصة بالمجال يمكن أن يؤدي إلى إثبات تأثيرات إيجابية. ومع ذلك، فإن معظم هذه أعمال التدريب المسبق الإضافية هذه فقط استمر في تشغيل المهمة التقليدية السابقة للتدريب، على سبيل المثال، نموذج اللغة الملثم، والتي يمكن اعتبارها كتكيف مجال إلى سد فجوة توزيع البيانات. بعد مراعاة المهام المتنوعة المصب، نقترح أن المهام المختلفة قد تحتاج أيضا إلى مرحلة أخرى قبل التدريب مع مهام التدريب المناسبة لسد فجوة صياغة المهمة. للتحقيق في ذلك، نقوم بدراسة لتحسين مهام تسليم الحوار الموجهة نحو المهام المتعددة من خلال تصميم المهام المختلفة في مرحلة ما قبل التدريب المسبق. توضح التجربة أن المهام المختلفة المصب تفضل مزيد من المهام التدريبية المسبقة المختلفة، والتي لها علاقة جوهرية وأكبر مهام التدريب المسبق بشكل كبير تحسين المهام المستهدفة بشكل كبير بدلا من ذلك. يشير تحقيقنا إلى أنه من الأهمية والفعالية الكبرى لتصميم مهام التدريب المسبق المناسبة نمذجة معلومات محددة تفيد بمهام المصب. بالإضافة إلى ذلك، نقدم استنتاجات تجريبية بناءة متعددة لتعزيز الحوارات الموجهة نحو المهام.
يتم تدريب نماذج NLP الحالية في الغالب من خلال خط أنابيب ما قبل المرحلة من مرحلتين. لقد أظهر العمل المسبق أن إدراج مرحلة ما قبل التدريب الوسيط، باستخدام سياسات إخفاء الإرشادية لنمذجة لغة ملثم (MLM)، يمكن أن تحسن بشكل كبير الأداء النهائي. ومع ذلك، لا ي زال غير واضح (1) في أي حالات مثل هذا التدريب المسبق الوسيط مفيد، (2) سواء كانت الأهداف المهمة المصنوعة يدويا هي مهمة معينة، و (3) ما إذا كانت سياسة إخفاء مصممة لمهمة واحدة تعزيم خارج تلك المهمة. في هذه الورقة، نقوم بإجراء دراسة تجريبية واسعة النطاق للتحقيق في تأثير سياسات اخفاء مختلفة في التدريب المسبق المتوسط ​​مع تسع مهام مختارة عبر ثلاث فئات. من الأهمية، نقدم طرق لأتمتة اكتشاف سياسات إخفاء الأمثل عبر الإشراف المباشر أو التعلم التلوي. نستنتج أن نجاح التدريب المسبق الوسيط يعتمد على Corpus ما قبل القطارات المناسبة، واختيار تنسيق الإخراج (أي، يمثل الموافق أو الجملة الكاملة)، وفهم واضح للدور الذي يلعبه الامتيازات والرهون البحرية لمهمة المصب. بالإضافة إلى ذلك، نجد أن سياسات الاخفاء المتعلميتنا تتفوق على مزعجة إخفاء الكيانات المسماة على Triviaqa، والسياسات المستفادة من مهمة يمكن أن تنتقل بشكل إيجابي إلى مهام أخرى في بعض الحالات، مما يدعو إلى البحث في المستقبل في هذا الاتجاه.
مزيد من النماذج اللغوية المسبقة للتدريب على البيانات داخل المجال (التدريب المسبق مسبقا، Dapt) أو البيانات ذات الصلة (TAME-APT-APTICTIVE، TAPT) قبل أن تؤدي إلى تحسين أداء المهام المصب.ومع ذلك، في نمذجة الحوار الموجهة نحو المهام، نلاحظ أن مزيد من الامت يازات التدريبية قبل التدريب لا تعزز دائما الأداء في مهمة المصب.نجد أن DIST مفيد في إعداد الموارد المنخفضة، ولكن نظرا لأن حجم بيانات ضبط الرصيف ينمو، يصبح DIST أقل فائدة أو حتى عديمة الفائدة، وتوسيع نطاق حجم بيانات Dapt لا يساعد.من خلال تحليل التشابه التمثيلي، نستنتج أن المزيد من البيانات الخاصة بالضبط بشكل جيد غلة تغيير أكبر في تمثيلات النموذج وبالتالي تقلل من تأثير التهيئة.
نظرا لأن تكلفة وضع العلامات للوحدات المختلفة في أنظمة الحوار الموجهة نحو المهام (TOD) باهظ الثمن، فإن التحدي الرئيسي هو تدريب وحدات مختلفة بأقل قدر من البيانات المسمى. أظهرت نماذج اللغة المدربة مسبقا مؤخرا، نتائج واعدة واعدة لعدد قليل من التعلم في TO D. في هذه الورقة، نرتند نهجا للتدريب الذاتي للاستفادة من بيانات الحوار غير المسبق الوفيرة لزيادة تحسين النماذج المدربة للدولة المدربة مسبقا في سيناريوهات تعليمية قليلة لأنظمة TOD. على وجه التحديد، نقترح نهجا للتدريب الذاتي أن تستلم البيانات الأكثر ثقة أكثر ثقة لتدريب نموذج طالب أقوى. علاوة على ذلك، يقترح تقنية تكبير نص جديد (GradaG) تدريب الطالب بشكل أفضل عن طريق استبدال الرموز غير الحاسمة باستخدام نموذج لغة ملثم. نقوم بإجراء تجارب مكثفة وتحليلات موجودة على أربع مهام المصب في TOD، بما في ذلك تصنيف النوايا وتتبع ولاية الحوار وتنبؤ قانون الحوار واختيار الاستجابة. توضح النتائج التجريبية أن نهج التدريب الذاتي المقترح باستمرار يحسن باستمرار النماذج المدربة مسبقا من أحدث (بيرت، TOD-BERT-BERT) عند توفر عدد صغير فقط من البيانات المسمى.
تفسير محتمل للأداء المثير للإعجاب في ما قبل التدريب اللغوي المصنوع (MLM) هو أن هذه النماذج تعلمت أن تمثل الهياكل النحوية السائدة في خطوط أنابيب NLP الكلاسيكية. في هذه الورقة، نقترح شرحا مختلفا: تنجح MLMS على مهام المصب بالكامل تقريبا بسبب قدرتها على نموذج إحصاءات حدوث كلمة ترتيب أعلى. لإظهار ذلك، نقوم بتدريب MLMS مسبقا على الجمل مع ترتيب كلمة خلط عشوائيا، وإظهار أن هذه النماذج لا تزال تحقق دقة عالية بعد ضبطها على العديد من المهام المصب --- بما في ذلك المهام المصممة خصيصا لتكون صعبة للنماذج التي تتجاهل ترتيب الكلمات وبعد تؤدي نماذجنا بشكل جيد بشكل مدهش وفقا لبعض تحقيقات النحوية ذات الصلة، مما يشير إلى أوجه القصور المحتملة في كيفية اختبار تمثيلات للحصول على معلومات النحوية. بشكل عام، تظهر نتائجنا أن المعلومات التوزيعية البحتة تشرح إلى حد كبير نجاح ما قبل التدريب، وتؤكد أهمية إعانة مجموعات بيانات التقييم الصعبة التي تتطلب معرفة لغوية أعمق.
نقدم VideoClip، وهو نهج مقاوم للتناقض في تدريب نموذج موحد مسبقا لفهم الفيديو والنصية الصفرية، دون استخدام أي ملصقات على مهام المصب.يقوم VideoClep بتدريب محول الفيديو والنص عن طريق تناقض أزواج فيديو إيجابية مؤقتة متداخلة مع السلبيات الصعبة من أقرب است رجاع جار.تجاربنا على سلسلة متنوعة من المهام المصب، بما في ذلك استرجاع الفيديو على مستوى التسلسل، والتعريب الخاص بمستوى عمل Videoqa ومستوى الرمز المميز، وتجزئة العمل تكشف عن أداء حالة من بين الفن، وتجاوز العمل السابق، وفي بعض الحالات يفوقنالنهج الخاضعة للإشراف.يتوفر الكود في https://github.com/pytorch/fairseq/examples/mmpt.
حققت نماذج متعددة اللغات المدربة مسبقا أداء ملحوظا على تعلم التحويل عبر اللغات.تم تدريب بعض النماذج متعددة اللغات مثل Mbert، مدربة مسبقا على Corpora غير المسبق، وبالتالي لا يمكن تضمين تضمينات لغات مختلفة في النماذج بشكل جيد للغاية.في هذه الورقة، نهدف إلى تحسين أداء نقل اللغات المتبادل الصفر عن طريق اقتراح مهمة تدريبية مسبقا تسمى نموذج محاذاة Word-Exchange (Weal)، والذي يستخدم معلومات المحاذاة الإحصائية كمعرفة مسبقة لتوجيه الكلمة عبر اللغاتتنبؤ.نحن نقيم نموذجنا في مهمة مهام الفهم لقراءة الجهاز متعدد اللغات ومهمة واجهة اللغة الطبيعية XNLI.تظهر النتائج أن Weam يمكن أن يحسن بشكل كبير من الأداء الصفر بالرصاص.
يزداد عدد الوثائق الطبية الحيوية بسرعة.وفقا لذلك، يتزايد الطلب على استخراج المعرفة من النصوص الطبية الحيوية على نطاق واسع.تعرف النماذج القائمة على بيرت بأدائها عالية في المهام المختلفة.ومع ذلك، غالبا ما يكون باهظ الثمن بشكل حسابي.بيئة GPU متطورة غير متوفرة في العديد من المواقف.لتحقيق كل من الدقة عالية وسرعة الاستخراج السريع، نقترح مجموعات من النماذج المبهب المدربة مسبقا.تتفوق طريقةنا على أحدث طراز أحدث نماذج ومقرها بيرت على جاد كوربوس.بالإضافة إلى ذلك، تظهر طريقةنا بسرعة ما يقرب من ثلاث مرات سرعة استخراج أسرع من النماذج القائمة على Bert
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا