حجم المفردات عبارة عن خيار تصميم مركزي في نماذج اللغة المحددة مسبقا كبيرة، فيما يتعلق بمتطلبات الأداء والذاكرة.عادة، يتم استخدام خوارزميات تكتيح الكلمات الفرعية مثل ترميز زوج البايت والصفحة.في هذا العمل، نحقق في توافق التوصيلات الخاصة بمساحات التضمين الثابتة والسياق متعددة اللغات واقتراح تدبير يعكس توافق التوصيلات عبر اللغات.هدفنا هو منع التوصيلات غير المتوافقة، على سبيل المثال، النبيذ "(مستوى الكلمات) باللغة الإنجليزية مقابل V. (مستوى الحرف) باللغة الفرنسية، مما يجعل من الصعب تعلم تمثيلات دلالية جيدة متعددة اللغات.نظهر أن تدبير التوافق لدينا يسمح بمصمم النظام بإنشاء مفدين عبر اللغات المتوافقة - Desideratum الذي تم إهماله حتى الآن في نماذج متعددة اللغات.
The size of the vocabulary is a central design choice in large pretrained language models, with respect to both performance and memory requirements. Typically, subword tokenization algorithms such as byte pair encoding and WordPiece are used. In this work, we investigate the compatibility of tokenizations for multilingual static and contextualized embedding spaces and propose a measure that reflects the compatibility of tokenizations across languages. Our goal is to prevent incompatible tokenizations, e.g., wine'' (word-level) in English vs. v i n'' (character-level) in French, which make it hard to learn good multilingual semantic representations. We show that our compatibility measure allows the system designer to create vocabularies across languages that are compatible -- a desideratum that so far has been neglected in multilingual models.
المراجع المستخدمة
https://aclanthology.org/
كيف تشرح بيل غيتس إلى الألمانية؟يرتبط بتأسيس شركة في الولايات المتحدة، لذلك ربما يمكن للمؤسس الألماني كارل بنز أن يقف في البوابات في تلك السياقات.يسمى هذا النوع من الترجمة التكيف في مجتمع الترجمة.حتى الآن، لم تتم هذه المهمة بشكل حسابي.يمكن استخدام ال
تعتمد أنظمة متعددة اللغات متعددة اللغات على المفردات المشتركة التي تغطي جميع اللغات التي تغطي بما فيه الكفاية. تحقيقا لهذه الغاية، فإن النهج البسيط والمستعمل بشكل متكرر يستفيد من مفهليات الكلمات الفرعية التي تم إنشاؤها بشكل مشترك على عدة لغات. نحن نف
لوحظت نماذج الترجمة الآلية العصبية (NMT) لإنتاج ترجمات سيئة عندما يكون هناك عدد قليل من الجمل / لا توجد جمل متوازية لتدريب النماذج. في حالة عدم وجود بيانات متوازية، تحولت عدة طرق إلى استخدام الصور لتعلم الترجمات. نظرا لأن صور الكلمات، على سبيل المثال
تعد Word Embeddings تمثيلات قوية تشكل أساس العديد من هياكنة معالجة اللغة الطبيعية، سواء باللغة الإنجليزية ولدا في لغات أخرى.للحصول على مزيد من البصائل في Adgeddings Word، نستكشف استقرارها (على سبيل المثال، تتداخل بين أقرب جيران من كلمة في مسافات مختل
تعد أنظمة معالجة اللغة الطبيعية (NLP) في قلب العديد من أنظمة صنع القرار الآلي الحرجة التي تجعل توصيات حاسمة حول عالمنا في المستقبل.تم دراسة التحيز بين الجنسين في NLP جيدا باللغة الإنجليزية، لكنها كانت أقل دراستها بلغات أخرى.في هذه الورقة، تضم فريقا ب