ترغب بنشر مسار تعليمي؟ اضغط هنا

أصبح تجزئة الكلمات الفرعية التي يحركها البيانات هي الاستراتيجية الافتراضية للترجمة الآلية المفتوحة ومهام NLP الأخرى، ولكنها قد لا تكون عامة بما فيه الكفاية للتعلم الأمثل للمورفولوجيا غير الملعوسة.نقوم بتصميم مجموعة اختبار لتقييم استراتيجيات التجزئة ع لى أنواع مختلفة من الظواهر المورفولوجية في بيئة ذات نصف اصطناعية محددة.في تجاربنا، قارنا نماذج الترجمة الآلية التي تم تدريبها على مستوى الكلمة الفرعية ومستوى الشخصيات ترجمة هذه الظواهر المورفولوجية.نجد أن التعلم لتحليل وإنشاء تمثيلات سطحية معقد مورفولوجية لا تزال تحديا، خاصة بالنسبة للظواهر المورفولوجية غير الملحة مثل الإدراج أو الحروف الحرارية وانسحاب الكلمة النادرة.استنادا إلى نتائجنا، نوصي باختبار استراتيجيات تمثيل نصية جديدة على مجموعة من اللغات المتنوعة من الناحية النموذجية لتقليل خطر اعتماد استراتيجية عيوب عن غير قصد بعض اللغات.
التدريب التكميلي على مهام البيانات المتوسطة الواسعة (المقابلة) هي تقنية مطبقة على نطاق واسع، والتي تلتزم أولا نماذج اللغة المحددة مسبقا في مهمة وسيطة من قبل على المهمة المستهدفة المهم.في حين أن الطفولة قادرة على تحسين أداء نماذج اللغة المحددة مسبقا، فلا تزال غير واضحة لماذا وعندما يعمل.تبين الأبحاث السابقة أن هذه المهام الوسيطة التي تنطوي على استنتاج معقد، مثل التفكير المنطقي، والعمل بشكل جيد بشكل جيد لروبرتا كبير.في هذه الورقة، نكتشف أن التحسن من المهمة المتوسطة يمكن أن يكون متعامدا له يحتوي على التفكير أو غيرها من المهارات المعقدة --- يمكن له مهمة تمييزية مزيفة حقيقية مزيفة من قبل GPT2 يمكن أن تستفيد مهام مستهدفة متنوعة.نقوم بإجراء تجارب مكثفة لدراسة تأثير العوامل المختلفة على الطفولة.تشير هذه النتائج إلى إعادة التفكير في دور الصقل الدقيق المتوسطة في خط أنابيب المقابلة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا