من أجل الحفاظ على معلومات ترتيب الكلمات في إعداد غير تلقائي، تميل هياكل المحولات إلى تضمين المعرفة الموضعية، من خلال (على سبيل المثال) إضافة الترميزات الموضعية إلى Tunken Ageddings. تم اقتراح العديد من التعديلات على الترميزات الموضعية الجيبية المستخدمة في بنية المحولات الأصلية؛ وتشمل هذه، على سبيل المثال، فصل ترميزات الموضع و Adgeddings الرمز المميز، أو تعديل أوزان الاهتمام مباشرة على المسافة بين أزواج Word. نوضح أولا أن هذه التعديلات تميل إلى تحسين نماذج اللغة أحادية الأونلينغ، لا ينتج أي منها نماذج أفضل لغات متعددة اللغات. ثم نرد على ذلك هو: تم تصميم الترميزات الجيبية بشكل صريح لتسهيل التركيب عن طريق السماح بتوقعات خطية على خطوات الوقت التعسفي. هناك فروق أعلى في توزيعات التدريب متعددة اللغات تتطلب ضغطا أعلى، وفي هذه الحالة، تصبح التركيزية لا غنى عنها. تميل الترميزات الموضعية المطلقة (E.G.، في Mbert) إلى تقريبية Abitdings الجيبية في إعدادات متعددة اللغات، لكن هياكل الترميز الموضعي أكثر تعقيدا تفتقر إلى التحيز الاستقرائي لتعلم المحاذاة عبر اللغات بشكل فعال. بمعنى آخر، في حين تم تصميم الترميزات الجيبية الموضعية لتطبيقات أحادية الأونلينغ، فهي مفيدة بشكل خاص في نماذج لغة متعددة اللغات.
In order to preserve word-order information in a non-autoregressive setting, transformer architectures tend to include positional knowledge, by (for instance) adding positional encodings to token embeddings. Several modifications have been proposed over the sinusoidal positional encodings used in the original transformer architecture; these include, for instance, separating position encodings and token embeddings, or directly modifying attention weights based on the distance between word pairs. We first show that surprisingly, while these modifications tend to improve monolingual language models, none of them result in better multilingual language models. We then answer why that is: sinusoidal encodings were explicitly designed to facilitate compositionality by allowing linear projections over arbitrary time steps. Higher variances in multilingual training distributions requires higher compression, in which case, compositionality becomes indispensable. Learned absolute positional encodings (e.g., in mBERT) tend to approximate sinusoidal embeddings in multilingual settings, but more complex positional encoding architectures lack the inductive bias to effectively learn cross-lingual alignment. In other words, while sinusoidal positional encodings were designed for monolingual applications, they are particularly useful in multilingual language models.
References used
https://aclanthology.org/
Lexical normalization is the task of transforming an utterance into its standardized form. This task is beneficial for downstream analysis, as it provides a way to harmonize (often spontaneous) linguistic variation. Such variation is typical for soci
خلال العقد الأخير من القرن العشرين ظهرت مجموعة من المتغيرات التكنولوجية المتقدمة في مجالات نظم المعلومات المرتبطة بالحاسبات الآلية و وسائل الاتصال و ضغط البيانات و نقلها عبر شبكات الحاسب الآلي. حيث انتقلت نظم المعلومات من اعتمادها على النص و بعض الرس
We present the results of the first task on Large-Scale Multilingual Machine Translation. The task consists on the many-to-many evaluation of a single model across a variety of source and target languages. This year, the task consisted on three diffe
India is known as the land of many tongues and dialects. Neural machine translation (NMT) is the current state-of-the-art approach for machine translation (MT) but performs better only with large datasets which Indian languages usually lack, making t
India is one of the richest language hubs on the earth and is very diverse and multilingual. But apart from a few Indian languages, most of them are still considered to be resource poor. Since most of the NLP techniques either require linguistic know