أثبتت تضيير Word عبر اللغات (CLWES) لا غنى عنها لمختلف مهام معالجة اللغة الطبيعية، على سبيل المثال، تحريض معجم ثنائي اللغة (BLI). ومع ذلك، فإن عدم وجود البيانات غالبا ما يضعف جودة التمثيلات. اقترحت النهج المختلفة التي تتطلب إشراف ضعيف متصلي فقط، لكن الأساليب الحالية لا تزال تفشل في تعلم الأسطر الجيدة لغات فقط من كائن أحادي الأحادي الصغيرة فقط. لذلك ندعي أنه من الضروري استكشاف المزيد من البيانات الخاصة بتحسين CLWES في إعدادات الموارد المنخفضة. في هذه الورقة نقترح دمج بيانات لغات الموارد ذات الصلة ذات الصلة. على النقيض من الأساليب السابقة التي تنفذ بشكل مستقل تدريبا مسبقا من أجل تضمين اللغات، فإننا (1) قطار القطار للموارد المنخفضة ولغة ذات صلة بالاشتراك و (2) تعيينها إلى اللغة المستهدفة لبناء الفضاء النهائي متعدد اللغات. في تجاربنا نركز على Occitan، وهي لغة رومانسية منخفضة الموارد التي غالبا ما يتم إهمالها بسبب نقص الموارد. نستفيد من البيانات من الفرنسية والإسبانية والكانتالانية للتدريب والتقييم في مهمة Occitan-English BLI. من خلال دمج اللغات الداعمة طريقتنا التي تتفوقت على النهج السابقة بهامش كبير. علاوة على ذلك، يوضح تحليلنا أن درجة الرعاية بين لغة مدمجة ولغة الموارد المنخفضة مهمة للغاية.
Cross-lingual word embeddings (CLWEs) have proven indispensable for various natural language processing tasks, e.g., bilingual lexicon induction (BLI). However, the lack of data often impairs the quality of representations. Various approaches requiring only weak cross-lingual supervision were proposed, but current methods still fail to learn good CLWEs for languages with only a small monolingual corpus. We therefore claim that it is necessary to explore further datasets to improve CLWEs in low-resource setups. In this paper we propose to incorporate data of related high-resource languages. In contrast to previous approaches which leverage independently pre-trained embeddings of languages, we (i) train CLWEs for the low-resource and a related language jointly and (ii) map them to the target language to build the final multilingual space. In our experiments we focus on Occitan, a low-resource Romance language which is often neglected due to lack of resources. We leverage data from French, Spanish and Catalan for training and evaluate on the Occitan-English BLI task. By incorporating supporting languages our method outperforms previous approaches by a large margin. Furthermore, our analysis shows that the degree of relatedness between an incorporated language and the low-resource language is critically important.
المراجع المستخدمة
https://aclanthology.org/
نقترح نهجا جديدا لتعلم تضمين الكلمات المتبادلة عبر السياق بناء على كائن مواز صغير (E.G. بضع مئات من أزواج الجملة). تتمتع طريقتنا بدمج الكلمات عبر نموذج فك تشفير LSTM يترجم في وقت واحد وإعادة بناء جملة مدخلات. من خلال تقاسم المعلمات النموذجية بين لغات
تحفز الوجود الواسع للغة الهجومية على وسائل التواصل الاجتماعي تطوير أنظمة قادرة على الاعتراف بهذا المحتوى تلقائيا.بصرف النظر عن بعض الاستثناءات البارزة، فإن معظم الأبحاث حول تحديد اللغة الهجومية التلقائية تعامل مع اللغة الإنجليزية.لمعالجة هذا القصور،
توفر Argeddings Word عبر اللغات طريقة للمعلومات التي سيتم نقلها بين اللغات.في هذه الورقة، نقيم امتدادا لنهج تدريب مشترك لتعلم التضامن المتبادل الذي يتضمن معلومات الفرعية أثناء التدريب.قد تكون هذه الطريقة مناسبة بشكل خاص لأنها لغات منخفضة الموارد ولغا
إن التقاط معنى كلمة في السياق والتمييز بين المراسلات والاختلافات عبر اللغات هو مفتاح بناء نماذج تمثيل نصية متعددة اللغات والنجاح. ومع ذلك، فإن مجموعات بيانات التقييم المتعددة اللغات الحالية التي تقيم الدلالات المعجمية في السياق "لها قيود مختلفة. على
في هذا العمل، نحقق في أساليب المهمة الصعبة المتمثلة في الترجمة بين أزواج لغة الموارد المنخفضة التي تظهر بعض مستوى التشابه.على وجه الخصوص، نعتبر فائدة نقل التعلم للترجمة بين العديد من لغات الموارد المنخفضة الأوروبية من الهند من الأسر الجرمانية والروما