Research papers, master and doctoral theses about تدابير التشابه

Representations of Language Varieties Are Reliable Given Corpus Similarity Measures

74 - Association for Computation Linguistics 2021 مقالة

This paper measures similarity both within and between 84 language varieties across nine languages. These corpora are drawn from digital sources (the web and tweets), allowing us to evaluate whether such geo-referenced corpora are reliable for modell ing linguistic variation. The basic idea is that, if each source adequately represents a single underlying language variety, then the similarity between these sources should be stable across all languages and countries. The paper shows that there is a consistent agreement between these sources using frequency-based corpus similarity measures. This provides further evidence that digital geo-referenced corpora consistently represent local language varieties.

corpus similarity measures language varieties similarity measures تدابير التشابه في كوربوس أنواع اللغة تدابير التشابه صناعة حمض الفوسفور المزيد..

يمكنك البدء بجني المال وتحقيق ربح مادي من أبحاثك العلمية، المزيد