ترغب بنشر مسار تعليمي؟ اضغط هنا

ما قبل التدريب مع التعلم التعريف تجزئة الكلمة الصينية

Pre-training with Meta Learning for Chinese Word Segmentation

277   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تظهر الأبحاث الحديثة أن النماذج المدربة مسبقا (PTMS) مفيدة تجزئة الكلمات الصينية (CWS).ومع ذلك، فإن PTMS المستخدمة في الأعمال السابقة عادة ما تعتمد نمذجة اللغة كامرأة تدريبية مسبقا، تفتقر إلى معرفة تجزئة مسبقة خاصة بمهام المهام وتجاهل التناقض بين مهام ما قبل التدريب ومهام CWS المصب.في هذه الورقة، نقترح MetASE مطلقا مدربا مسبقا مسبقا CWS، والذي توظف هندسة موحدة ويشمل خوارزمية التعلم المعتوية في مهمة ما قبل التدريب متعدد المعايير.تظهر النتائج التجريبية أن METASEG يمكن أن تستخدم معرفة تجزئة مسبقة مشتركة من المعايير الحالية المختلفة وتخفيف التناقض بين النماذج المدربة مسبقا ومهام CWS المصب.علاوة على ذلك، يمكن أن يحقق MetASEG أداء جديدا على أحدث بيانات CWS المستخدمة على نطاق واسع وتحسين أداء النموذج بشكل كبير في إعدادات الموارد المنخفضة.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم استخدام أساليب الشبكة العصبية الحديثة الأخيرة (SOTA) وأساليب Neural العصبية الفعالة على أساس النماذج المدربة مسبقا (PTM) في تجزئة الكلمات الصينية (CWS)، وتحقيق نتائج رائعة. ومع ذلك، فإن الأعمال السابقة تركز على تدريب النماذج مع Corpus الثابتة في ك ل تكرار. المعلومات المتوسطة المتوسطة هي أيضا قيمة. علاوة على ذلك، فإن تقلب الأساليب العصبية السابقة محدودة بالبيانات المشروح على نطاق واسع. هناك عدد قليل من الضوضاء في كوربوس المشروح. بذلت جهود محدودة من قبل الدراسات السابقة للتعامل مع هذه المشاكل. في هذا العمل، نقترح نهج CWS الخاضع للإشراف ذاتيا بمعماري مباشر وفعال. أولا، ندرب نموذج تجزئة كلمة واستخدامه لتوليد نتائج التجزئة. بعد ذلك، نستخدم نموذج لغة مصنف منقح (MLM) لتقييم جودة نتائج التجزئة المستندة إلى تنبؤات الامتيازات. أخيرا، نستفيد من التقييمات لمساعدة تدريب القطاع من خلال تحسين الحد الأدنى من التدريب على المخاطر. تظهر النتائج التجريبية أن نهجنا يتفوق على الأساليب السابقة في 9 مجموعات بيانات مختلفة CWS مع تدريب معايير واحدة وتدريب معايير متعددة وتحقيق متانة أفضل.
في لغات parataxis مثل الصينية، يتم بناء معاني الكلمات باستخدام تكوينات كلمات محددة، والتي يمكن أن تساعد في إزالة حواس الكلمات.ومع ذلك، نادرا ما يتم استكشاف هذه المعرفة في أساليب Disambiguation Sense (WSD) السابقة.في هذه الورقة، نقترح نفايات المعرفة ب تكوين النصوص لتعزيز WSD الصيني.نحن أولا بناء مجموعة بيانات WSD الصينية على نطاق واسع مع تكوينات الكلمات.بعد ذلك، نقترح نموذج صيغة نموذجية لإدماج تكوين الكلمات بشكل صريح في حالة إزالة الغموض.لتعزيز التعميم، نقوم بتصميم وحدة تنقية تكوين كلمة في حالة تعويض تكوين كلمة غير متوفرة.تظهر النتائج التجريبية أن طريقتنا تجلب تحسن كبير في الأداء على خطوط خطوط خطوط خطوط طويلة.
توضح هذه الورقة تقديم نظام FBK إلى مهمة ترجمة الكلام IWSLT 2021. شاركنا نموذجا مباشرا، وهو عبارة عن بنية قائمة على المحولات المدربة لتترجم بيانات صوت الكلام باللغة الإنجليزية إلى نصوص ألمانية. يتميز خط أنابيب التدريب بتقطير المعرفة وإجراءات ضبط ناعم من خطوتين. يتم تنفيذ كل من تقطير المعرفة والخطوة الأولى الدقيقة على البيانات الحقيقية والاصطناعية مجزأة يدويا، والذي يتم إنشاؤه في هذا الأخير بنظام MT المدرب على الشركة المتاحة. بشكل مختلف، يتم تنفيذ خطوة التشغيل الدقيقة الثانية في تجزئة عشوائية ل DataSet MUST-C V2 EN-DE. هدفها الرئيسي هو تقليل قطرات الأداء التي تحدث عندما يتم تقييم نموذج الترجمة الكلام على البيانات المجزأة يدويا (I.E. لنفس الغرض، يتم تطبيق إجراء تجزئة هجينة مخصص تمثل كلا المحتوى الصوتي (توقف) وطول القطاعات المنتجة على بيانات الاختبار قبل تمريرها إلى النظام. في وقت الاستنتاج، قارننا هذا الإجراء مع طريقة تجزئة خط الأساس استنادا إلى اكتشاف نشاط الصوت (VAD). تشير نتائجنا إلى فعالية النهج الهجين المقترح، الذي أظهره تخفيض الفجوة مع تجزئة يدوية من نقاط بلو 8.3 إلى 1.4.
أسفرت صعود النماذج اللغوية المدربة مسبقا تقدما كبيرا في الغالبية العظمى من مهام معالجة اللغة الطبيعية (NLP). ومع ذلك، يمكن أن يكون النهج العام باتجاه الإجراء المسبق للتدريب بطبيعة الحال في بعض الحالات. بشكل خاص، قم بضبط نموذج لغة مدرب مسبقا في مجال ا لمصدر ثم تطبيقه على نطاق مستهدف مختلف، يؤدي إلى انخفاض أداء حاد من المصنف النهائي للعديد من أزواج المجال المستهدف المصدر. علاوة على ذلك، في بعض مهام NLP، تختلف فئات الإخراج بشكل كبير بين المجالات، مما يجعل التكيف أكثر تحديا. هذا، على سبيل المثال، يحدث في مهمة استخراج الجانب، حيث قد تكون جوانب اهتمام الاستعراضات، على سبيل المثال، المطاعم أو الأجهزة الإلكترونية مختلفة للغاية. تقدم هذه الورقة مخططا جديدا للضبط في بيرت، والتي تهدف إلى معالجة التحديات المذكورة أعلاه. نحن نسمي هذا المخطط Dilbert: تعلم المجال الثابتة مع Bert، وتخصيصه لاستخراج الجانب في إعداد تكيف المجال غير المقترح. يسخر Dilbert المعلومات الفئوية لكل من المصدر والمجالات المستهدفة لتوجيه عملية التدريب المسبق نحو تمثيل ثنائي النطاق والفئة، مما يغلق الفجوة بين المجالات. نظهر أن Dilbert يعطي تحسينات كبيرة على خطوط الأساس الحديثة أثناء استخدام جزء صغير من البيانات غير المسبقة، لا سيما في إعدادات تكيف مجال أكثر تحديا.
حققت نماذج تمثيل اللغة المدربة مؤخرا مثل بيرت وروبرتا نتائج مهمة في مجموعة واسعة من مهام معالجة اللغة الطبيعية (NLP)، ومع ذلك، فإنها تتطلب تكلفة حسابية عالية للغاية.يعد تعلم المناهج الدراسية (CL) أحد الحلول المحتملة لتخفيف هذه المشكلة.CL هي استراتيجي ة تدريبية حيث يتم إعطاء عينات التدريب للنماذج بأمر هادف بدلا من أخذ العينات العشوائية.في هذا العمل، نقترح طريقة CL جديدة تدريجيا، مما يزيد تدريجيا من حجم نص المدخلات لتدريب آلية الانتباه الذاتي في بيرت ومتغيراته باستخدام الحد الأقصى للحجم الدفعة المتوفرة.تظهر التجارب في إعدادات الموارد المنخفضة أن نهجنا يفوق أن يؤدي إلى خط الأساس من حيث سرعة التقارب والأداء النهائي على مهام المصب.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا