يمكن استخدام نماذج التعريفات PCFG غير المزودة، والتي تبني الهياكل النحوية من النص الخام، لتقييم مدى ما يمكن الحصول على المعرفة النحوية من المعلومات التوزيعية وحدها. ومع ذلك، فإن العديد من نماذج تحريض PCFG الحديثة مقرها بكلمات، مما يعني أنها لا يمكنها فحص التصفيات الوظيفية مباشرة، والتي قد تقدم معلومات حاسمة للحصول على الاستحواذ النحوي في المتعلمين الأطفال. يقدم هذا العمل أولا نموذج تحريض PCFG العصبي يسمح بإجراء عصبي نظيف لتأثير معلومات الكلمات الفرعية في الحث القوي. توضح تجارب الخطاب الموجهة للأطفال أولا أن إدراج معلومات الكلمات الفرعية ينتج عنه قواعد النمسات الأكثر دقة مع فئات أن نماذج التعريفات المستندة إلى الكلمة لديها صعوبة في العثور، وثانيا أن هذا التأثير يتم تضخيمه في لغات أكثر ثراء مورفولوجية التي تعتمد على التصفيات الوظيفية للتعبير عنها علاقات. يوضح التقييم اللاحق على Treebanks متعددة اللغات أن النموذج مع معلومات الكلمات الفرعية يحقق نتائج أحدث النتائج في العديد من اللغات، مما يدعم نموذج توزيعي للكتساب النحوي.
Unsupervised PCFG induction models, which build syntactic structures from raw text, can be used to evaluate the extent to which syntactic knowledge can be acquired from distributional information alone. However, many state-of-the-art PCFG induction models are word-based, meaning that they cannot directly inspect functional affixes, which may provide crucial information for syntactic acquisition in child learners. This work first introduces a neural PCFG induction model that allows a clean ablation of the influence of subword information in grammar induction. Experiments on child-directed speech demonstrate first that the incorporation of subword information results in more accurate grammars with categories that word-based induction models have difficulty finding, and second that this effect is amplified in morphologically richer languages that rely on functional affixes to express grammatical relations. A subsequent evaluation on multilingual treebanks shows that the model with subword information achieves state-of-the-art results on many languages, further supporting a distributional model of syntactic acquisition.
المراجع المستخدمة
https://aclanthology.org/
شهدت الترجمة الآلية التقدم السريع مع ظهور النماذج القائمة على المحولات. لا تحتوي هذه النماذج على هيكل لغوي صريح مبني عليهم، ومع ذلك فقد لا يزالون لا يزالون يتعلمون ضمنيا علاقات منظمة من خلال حضور الرموز ذات الصلة. نحن نفترض أن هذا التعلم الهيكلي أكثر
التنسيق هو ظاهرة اللغة التي تصدر شرطين أو أكثر من العبارات أو العبارات باستخدام التنسيق. على الرغم من أن التنسيق قد تم استكشافه على نطاق واسع في أدب اللغويات، فإن القواعد والقيود التي تحكم هيكلها لا تزال بعيد المنال إلى حد كبير وناقشت على نطاق واسع ب
في هذه الورقة، فإننا نطبق غير المدعومة غير المدعومة باعتبارها مهمة جديدة في تحريض الهيكل النحوي، والتي مفيدة لفهم الهياكل اللغوية للغات البشرية وكذلك معالجة لغات الموارد المنخفضة.نقترح اتباع نهج نقل المعرفة بأنه يسخر بشكل مسبق تسميات القطعة من نماذج
الملخص نتخذ خطوة نحو معالجة تمثيل القارة الأفريقية في أبحاث NLP من خلال جلب مختلف أصحاب المصلحة من أصحاب المصلحة في إنشاء بيانات كبيرة متاحة للجمهور وعالية الجودة للتعرف على الكيان المسمى (NER) في عشرة لغات أفريقية.إننا نقوم بالتفصيل خصائص هذه اللغات
يتم تعريف Sememes على أنها الوحدات الذرية لوصف المعنى الدلالي للمفاهيم.نظرا لصعوبة التعليق يدويا في التسجيل يدويا واستنادا إلى التعليق بين الخبراء، فقد تم اقتراح مهمة تنبؤات النظرة المعجمية.ومع ذلك، فإن الأساليب السابقة تعتمد بشدة على Word أو Artters