من أجل الحفاظ على معلومات ترتيب الكلمات في إعداد غير تلقائي، تميل هياكل المحولات إلى تضمين المعرفة الموضعية، من خلال (على سبيل المثال) إضافة الترميزات الموضعية إلى Tunken Ageddings. تم اقتراح العديد من التعديلات على الترميزات الموضعية الجيبية المستخدمة في بنية المحولات الأصلية؛ وتشمل هذه، على سبيل المثال، فصل ترميزات الموضع و Adgeddings الرمز المميز، أو تعديل أوزان الاهتمام مباشرة على المسافة بين أزواج Word. نوضح أولا أن هذه التعديلات تميل إلى تحسين نماذج اللغة أحادية الأونلينغ، لا ينتج أي منها نماذج أفضل لغات متعددة اللغات. ثم نرد على ذلك هو: تم تصميم الترميزات الجيبية بشكل صريح لتسهيل التركيب عن طريق السماح بتوقعات خطية على خطوات الوقت التعسفي. هناك فروق أعلى في توزيعات التدريب متعددة اللغات تتطلب ضغطا أعلى، وفي هذه الحالة، تصبح التركيزية لا غنى عنها. تميل الترميزات الموضعية المطلقة (E.G.، في Mbert) إلى تقريبية Abitdings الجيبية في إعدادات متعددة اللغات، لكن هياكل الترميز الموضعي أكثر تعقيدا تفتقر إلى التحيز الاستقرائي لتعلم المحاذاة عبر اللغات بشكل فعال. بمعنى آخر، في حين تم تصميم الترميزات الجيبية الموضعية لتطبيقات أحادية الأونلينغ، فهي مفيدة بشكل خاص في نماذج لغة متعددة اللغات.
In order to preserve word-order information in a non-autoregressive setting, transformer architectures tend to include positional knowledge, by (for instance) adding positional encodings to token embeddings. Several modifications have been proposed over the sinusoidal positional encodings used in the original transformer architecture; these include, for instance, separating position encodings and token embeddings, or directly modifying attention weights based on the distance between word pairs. We first show that surprisingly, while these modifications tend to improve monolingual language models, none of them result in better multilingual language models. We then answer why that is: sinusoidal encodings were explicitly designed to facilitate compositionality by allowing linear projections over arbitrary time steps. Higher variances in multilingual training distributions requires higher compression, in which case, compositionality becomes indispensable. Learned absolute positional encodings (e.g., in mBERT) tend to approximate sinusoidal embeddings in multilingual settings, but more complex positional encoding architectures lack the inductive bias to effectively learn cross-lingual alignment. In other words, while sinusoidal positional encodings were designed for monolingual applications, they are particularly useful in multilingual language models.
المراجع المستخدمة
https://aclanthology.org/
التطبيع المعجمي هو مهمة تحويل الكلام في شكلها الموحد. هذه المهمة مفيدة لتحليل المصب، لأنها توفر طريقة للتنسيق (غالبا ما تكون عفوية) تباين لغوي. مثل هذا الاختلاف هو نموذجي للوسائط الاجتماعية التي تتم مشاركة المعلومات في العديد من الطرق، بما في ذلك الل
خلال العقد الأخير من القرن العشرين ظهرت مجموعة من المتغيرات التكنولوجية المتقدمة في مجالات نظم المعلومات المرتبطة بالحاسبات الآلية و وسائل الاتصال و ضغط البيانات و نقلها عبر شبكات الحاسب الآلي. حيث انتقلت نظم المعلومات من اعتمادها على النص و بعض الرس
نقدم نتائج المهمة الأولى على الترجمة ذات الجهاز متعدد اللغات على نطاق واسع.تتكون المهمة على التقييم المتعدد إلى العديد من النماذج الفردية عبر مجموعة متنوعة من اللغات المصدر والمستهدفة.هذا العام، تتألف المهمة على ثلاثة إعدادات مختلفة: (1) المهمة الصغي
تعرف الهند باسم أرض العديد من الألسنة واللهجات. الترجمة الآلية العصبية (NMT) هي النهج الحديث الحالي للترجمة الآلية (MT) ولكنه يعمل بشكل أفضل فقط مع مجموعات البيانات الكبيرة التي تفتقر إليها اللغات الهندية عادة، مما يجعل هذا النهج غير قابل للاستمرار.
الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين