ترغب بنشر مسار تعليمي؟ اضغط هنا

مهمة مهمة في تطبيقات NLP مثل تبسيط الجملة هي القدرة على اتخاذ جملة طويلة ومعقدة وتقسيمها إلى جمل أقصر، وإعادة صياغة حسب الضرورة. نقدم مجموعة بيانات جديدة ونموذج جديد لهذه المهمة الانقسام وإعادة صياغة. تتكون بياناتنا في Bisect التدريبية من 1 مليون جمل إنجليزية طويلة مقترن بأجمل الإنجليزية الأقصر والمعاواة بينها. نحصل على هؤلاء من خلال استخراج محاذاة جملة واحدة في فورانيا متوازية ثنائية اللغة ثم استخدام الترجمة الآلية لتحويل كلا الجانبين من الجور إلى نفس اللغة. يحتوي Bisect على أمثلة تدريبية ذات جودة أعلى من SPORTA SPORTA السابق وإعادة صياغتها، مع انشقاقات الجملة التي تتطلب تعديلات أكثر أهمية. نقوم بتصنيف أمثلة في Corpus لدينا واستخدام هذه الفئات في نموذج جديد يتيح لنا استهداف مناطق محددة من جملة المدخلات التي سيتم تقسيمها وتحريرها. علاوة على ذلك، نوضح أن النماذج المدربة على Bisect يمكن أن تؤدي مجموعة متنوعة واسعة من العمليات المنقسمة وتحسينها على النهج السابقة للحالة السابقة في التقييمات التلقائية والبشرية.
تناقش ورقة الاستقصاء / المركبة هذه الطرق لتحسين تغطية الموارد مثل WordNet.RAPP تقدر الارتباطات، RHO، بين إحصائيات كوربوس ومعايير الهاجولية.RHO يحسن مع الكمية (حجم كوربوس) والجودة (التوازن).1M الكلمات تكفي لتقديرات بسيطة (ترددات غير منغرام)، ولكن 100x على الأقل مطلوب لتقديرات جيدة للجمعيات والمواد المدمجة.نظرا مثل هذه التقديرات، فإن تغطية Wordnet رائعة.تم تطوير WordNET في SEMCOR، عينة صغيرة (كلمات 200K) من كوربوس البني.محاولات إكمال الرسم البياني المعرفي (KGC) تعلم الروابط المفقودة من مجموعات فرعية من مجموعات فرعية.لكن تقديرات Rapp للأحجام تشير إلى أنها ستكون أكثر ربحية لجمع المزيد من البيانات من استنتاج المعلومات المفقودة التي ليست موجودة.
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا