يمكن استخدام نماذج التعريفات PCFG غير المزودة، والتي تبني الهياكل النحوية من النص الخام، لتقييم مدى ما يمكن الحصول على المعرفة النحوية من المعلومات التوزيعية وحدها. ومع ذلك، فإن العديد من نماذج تحريض PCFG الحديثة مقرها بكلمات، مما يعني أنها لا يمكنها فحص التصفيات الوظيفية مباشرة، والتي قد تقدم معلومات حاسمة للحصول على الاستحواذ النحوي في المتعلمين الأطفال. يقدم هذا العمل أولا نموذج تحريض PCFG العصبي يسمح بإجراء عصبي نظيف لتأثير معلومات الكلمات الفرعية في الحث القوي. توضح تجارب الخطاب الموجهة للأطفال أولا أن إدراج معلومات الكلمات الفرعية ينتج عنه قواعد النمسات الأكثر دقة مع فئات أن نماذج التعريفات المستندة إلى الكلمة لديها صعوبة في العثور، وثانيا أن هذا التأثير يتم تضخيمه في لغات أكثر ثراء مورفولوجية التي تعتمد على التصفيات الوظيفية للتعبير عنها علاقات. يوضح التقييم اللاحق على Treebanks متعددة اللغات أن النموذج مع معلومات الكلمات الفرعية يحقق نتائج أحدث النتائج في العديد من اللغات، مما يدعم نموذج توزيعي للكتساب النحوي.
Unsupervised PCFG induction models, which build syntactic structures from raw text, can be used to evaluate the extent to which syntactic knowledge can be acquired from distributional information alone. However, many state-of-the-art PCFG induction models are word-based, meaning that they cannot directly inspect functional affixes, which may provide crucial information for syntactic acquisition in child learners. This work first introduces a neural PCFG induction model that allows a clean ablation of the influence of subword information in grammar induction. Experiments on child-directed speech demonstrate first that the incorporation of subword information results in more accurate grammars with categories that word-based induction models have difficulty finding, and second that this effect is amplified in morphologically richer languages that rely on functional affixes to express grammatical relations. A subsequent evaluation on multilingual treebanks shows that the model with subword information achieves state-of-the-art results on many languages, further supporting a distributional model of syntactic acquisition.
References used
https://aclanthology.org/
Machine translation has seen rapid progress with the advent of Transformer-based models. These models have no explicit linguistic structure built into them, yet they may still implicitly learn structured relationships by attending to relevant tokens.
Coordination is a phenomenon of language that conjoins two or more terms or phrases using a coordinating conjunction. Although coordination has been explored extensively in the linguistics literature, the rules and constraints that govern its structu
In this paper, we address unsupervised chunking as a new task of syntactic structure induction, which is helpful for understanding the linguistic structures of human languages as well as processing low-resource languages. We propose a knowledge-trans
Abstract We take a step towards addressing the under- representation of the African continent in NLP research by bringing together different stakeholders to create the first large, publicly available, high-quality dataset for named entity recognition
Sememes are defined as the atomic units to describe the semantic meaning of concepts. Due to the difficulty of manually annotating sememes and the inconsistency of annotations between experts, the lexical sememe prediction task has been proposed. How