تمثيلات الأصناف اللغوية موثوقة بإجراء تدابير تشابه Corpus


الملخص بالعربية

تدفق هذه الورقة تشابه داخل حدود وبين 84 أصناف لغة عبر تسعة لغات.يتم استخلاص هذه الشركة من المصادر الرقمية (الويب والتويت)، مما يتيح لنا تقييم ما إذا كانت هذه الشركات المشار إليها على جغرافية موثوقة في النمذجة الاختلاف اللغوي.الفكرة الأساسية هي أنه، إذا تمثل كل مصدر بشكل كاف مجموعة متنوعة من اللغات الأساسية واحدة، فيجب أن تكون التشابه بين هذه المصادر مستقرة عبر جميع اللغات والبلدان.توضح الورقة أن هناك اتفاق ثابت بين هذه المصادر باستخدام تدابير التشابه القائم على التردد.يوفر هذا دليلا إضافيا على أن شركة Corsea المرجعية الرقمية التي تمت الإشارة إليها باستمرار تمثل الأصناف اللغوية المحلية.

المراجع المستخدمة

https://aclanthology.org/

تحميل البحث