ترغب بنشر مسار تعليمي؟ اضغط هنا

ما قبل التدريب (PT) والترجمة الخلفي (BT) هي طريقتان بسيطان وقويهما لاستخدام البيانات الأولية لتحسين الأداء النموذجي للترجمة الآلية العصبية (NMT).تأخذ هذه الورقة الخطوة الأولى للتحقيق في التكامل بين PT و BT.نقدم اثنين من المهام التحقيق الخاصة ب PT و B T على التوالي وتجد أن PT يساهم بشكل أساسي في وحدة التشفير أثناء قيام BT بتجلب المزيد من الفوائد إلى وحدة فك الترميز.تظهر النتائج التجريبية أن PT و BT مكملة بشكل جيد مع بعضها البعض، وإنشاء عروض أحدث على المعايير WMT16 الإنجليزية والرومانية والروسية.من خلال تحليلات واسعة النطاق على عصالة الجملة وتيرة الكلمة، فإننا نوضح أيضا أن الجمع بين الموسومة BT مع PT هو أكثر فائدة تكاملها، مما يؤدي إلى جودة ترجمة أفضل.شفرة المصدر متاحة بحرية في HTTPS://github.com/sunbowliu/ptvsbt.
نحن نتطلع إلى اختناق بيانات التوضيحية لتصنيف التسلسل.على وجه التحديد نسأل السؤال: إذا كان لدى المرء ميزانية التوضيحية N، ما هي العينات التي يجب أن نختارها للتعليق التوضيحي؟الحل الذي نقترحه يبحث عن التنوع في العينة المحددة، من خلال تعظيم كمية المعلوما ت المفيدة لخوارزمية التعلم، أو معادل عن طريق تقليل التكرار من العينات في الاختيار.يتم صياغة هذا في سياق التعلم الطيفي للوظائف المتكررة لتصنيف التسلسل.تمثل طريقةنا البيانات غير المسبقة في شكل مصفوفة Hankel، وتستخدم فكرة الحجم الطيفي الأقصى للعثور على كتلة فرعية مضغوطة يتم رسم عينات التعليق التوضيحي.تؤكد التجارب المعنية بتصنيف التسلسل أن استراتيجية أخذ العينات الطيفية لدينا هي في الواقع فعالة وتجسد نماذج جيدة.
يمكن أن تخفف المعلومات الدقيقة من حدود الكلمات مشكلة الغموض المعجمي لتحسين أداء مهام معالجة اللغة الطبيعية (NLP). وبالتالي، فإن تجزئة الكلمات الصينية (CWS) مهمة أساسية في NLP. نظرا لتطوير نماذج اللغة المدربة مسبقا (PLM)، فإن المعرفة المدربة مسبقا يمك ن أن تساعد الأساليب العصبية في حل المشكلات الرئيسية ل CWS في إجراء كبير. حققت الطرق الحالية بالفعل أداء عال في العديد من المعايير (على سبيل المثال، bakeoff-2005). ومع ذلك، فإن الدراسات البارزة الحديثة محدودة من قبل كوربوس المشروح على نطاق صغير. لزيادة تحسين أداء أساليب CWS بناء على ضبط PLMS، نقترح إطار عمل عصبي رواية، LBGCN، الذي يشتمل على شبكة اتصالية قائمة بذاتها في الترميز في ترميز المحولات. النتائج التجريبية على خمسة معايير وأربعة مجموعات بيانات عبر المجال تظهر أن شبكة اتصال الرسوم البيانية المستندة إلى المعجم تستغرق بنجاح معلومات الكلمات المرشحة وتساعد على تحسين الأداء على المعايير (BakeOFF-2005 و CTB6) ومجموعات البيانات عبر المجال (Sighan- 2010). توضح المزيد من التجارب والتحليلات أن إطار عملنا المقترح نماذج المعجم بفعالية لتعزيز قدرة الأطر العصبية الأساسية وتعزز المتانة في سيناريو المجال العابر.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا