تدفق هذه الورقة تشابه داخل حدود وبين 84 أصناف لغة عبر تسعة لغات.يتم استخلاص هذه الشركة من المصادر الرقمية (الويب والتويت)، مما يتيح لنا تقييم ما إذا كانت هذه الشركات المشار إليها على جغرافية موثوقة في النمذجة الاختلاف اللغوي.الفكرة الأساسية هي أنه، إذا تمثل كل مصدر بشكل كاف مجموعة متنوعة من اللغات الأساسية واحدة، فيجب أن تكون التشابه بين هذه المصادر مستقرة عبر جميع اللغات والبلدان.توضح الورقة أن هناك اتفاق ثابت بين هذه المصادر باستخدام تدابير التشابه القائم على التردد.يوفر هذا دليلا إضافيا على أن شركة Corsea المرجعية الرقمية التي تمت الإشارة إليها باستمرار تمثل الأصناف اللغوية المحلية.
This paper measures similarity both within and between 84 language varieties across nine languages. These corpora are drawn from digital sources (the web and tweets), allowing us to evaluate whether such geo-referenced corpora are reliable for modelling linguistic variation. The basic idea is that, if each source adequately represents a single underlying language variety, then the similarity between these sources should be stable across all languages and countries. The paper shows that there is a consistent agreement between these sources using frequency-based corpus similarity measures. This provides further evidence that digital geo-referenced corpora consistently represent local language varieties.
المراجع المستخدمة
https://aclanthology.org/
تستخدم Word Embeddings على نطاق واسع في معالجة اللغة الطبيعية (NLP) لمجموعة واسعة من التطبيقات. ومع ذلك، فقد ثبت باستمرار أن هذه المدينات تعكس نفس التحيزات البشرية الموجودة في البيانات المستخدمة لتدريبها. معظم مؤشرات التحيز المنصوص عليها للكشف عن تحي
تمثل التمثيلات المتبادلة القدرة على جعل تقنيات NLP المتاحة للغالبية العظمى من اللغات في العالم. ومع ذلك، فإنهم يتطلبون حاليا كوربورا محدبة كبيرة أو الوصول إلى لغات مماثلة من الناحية النموذجية. في هذا العمل، نتعلم هذه العقبات من خلال إزالة إشارات هوية
استخدمت الأبحاث السابقة ميزات لغوية لإظهار أن الترجمات تظهر آثار التداخل اللغوي المصدر وأن الأشجار البلورية بين اللغات يمكن إعادة بناءها من نتائج الترجمات إلى نفس اللغة. أظهرت الأبحاث الحديثة أن مثيلات الترجمة (التداخل اللغوي المصدر) يمكن اكتشافها في
يتم استخدام نماذج اللغة المحددة على كورسا شاسعة للنص غير منظم باستخدام إطار التعلم الذاتي للإشراف في العديد من فهم اللغة الطبيعية ومهام الجيل. تشير العديد من الدراسات إلى أن الاستحواذ على اللغة في البشر يتبع نمطا بسيطا مهيكيا ومجهدا بهذا الحدس، وتعلم
جذبت الكشف التلقائي لمؤشر Myers-Briggs Type (MBTI) من منشورات قصيرة عناية ملحوظة في السنوات القليلة الماضية.أظهرت الدراسات الحديثة أن هذه مهمة صعبة للغاية، خاصة في بيانات تويتر شائعة الاستخدام.من الصعب أيضا الحصول على تسميات MBTI أيضا، حيث تتطلب الشر