ترغب بنشر مسار تعليمي؟ اضغط هنا

لا تهمل اللغات ذات الصلة: حالة المنخفضة الموارد OCCITAN الكلمات المتبقية

Do not neglect related languages: The case of low-resource Occitan cross-lingual word embeddings

146   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أثبتت تضيير Word عبر اللغات (CLWES) لا غنى عنها لمختلف مهام معالجة اللغة الطبيعية، على سبيل المثال، تحريض معجم ثنائي اللغة (BLI). ومع ذلك، فإن عدم وجود البيانات غالبا ما يضعف جودة التمثيلات. اقترحت النهج المختلفة التي تتطلب إشراف ضعيف متصلي فقط، لكن الأساليب الحالية لا تزال تفشل في تعلم الأسطر الجيدة لغات فقط من كائن أحادي الأحادي الصغيرة فقط. لذلك ندعي أنه من الضروري استكشاف المزيد من البيانات الخاصة بتحسين CLWES في إعدادات الموارد المنخفضة. في هذه الورقة نقترح دمج بيانات لغات الموارد ذات الصلة ذات الصلة. على النقيض من الأساليب السابقة التي تنفذ بشكل مستقل تدريبا مسبقا من أجل تضمين اللغات، فإننا (1) قطار القطار للموارد المنخفضة ولغة ذات صلة بالاشتراك و (2) تعيينها إلى اللغة المستهدفة لبناء الفضاء النهائي متعدد اللغات. في تجاربنا نركز على Occitan، وهي لغة رومانسية منخفضة الموارد التي غالبا ما يتم إهمالها بسبب نقص الموارد. نستفيد من البيانات من الفرنسية والإسبانية والكانتالانية للتدريب والتقييم في مهمة Occitan-English BLI. من خلال دمج اللغات الداعمة طريقتنا التي تتفوقت على النهج السابقة بهامش كبير. علاوة على ذلك، يوضح تحليلنا أن درجة الرعاية بين لغة مدمجة ولغة الموارد المنخفضة مهمة للغاية.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح نهجا جديدا لتعلم تضمين الكلمات المتبادلة عبر السياق بناء على كائن مواز صغير (E.G. بضع مئات من أزواج الجملة). تتمتع طريقتنا بدمج الكلمات عبر نموذج فك تشفير LSTM يترجم في وقت واحد وإعادة بناء جملة مدخلات. من خلال تقاسم المعلمات النموذجية بين لغات مختلفة، يدرك نموذجنا بشكل مشترك كلمة تضمين الكلمة في مساحة شائعة تبادل اللغات. نقترح أيضا الجمع بين وظائف الكلمة والكلمات الفرعية للاستفادة من أوجه التشابه الهجري عبر لغات مختلفة. نحن نؤدي تجاربنا على بيانات العالم الحقيقي من اللغات المهددة بالانقراض، وهي يونغينغ نا، Shipibo-Konibo، و Griko. تجاربنا على تحيزي المعجم الثنائي اللغة ومهام محاذاة الكلمات تظهر أن نموذجنا يفوق على الأساليب الحالية من قبل هامش كبير لمعظم أزواج اللغات. توضح هذه النتائج أنه على خلاف المعتقد الشائع، فإن نموذج الترجمة المشترك - ترميز الترميز مفيد لتعلم التمثيلات المتبادلة حتى في ظروف الموارد المنخفضة للغاية. علاوة على ذلك، يعمل نموذجنا أيضا بشكل جيد في ظروف الموارد العالية، وتحقيق الأداء الحديث في مهمة محاذاة الكلمة باللغة الألمانية.
تحفز الوجود الواسع للغة الهجومية على وسائل التواصل الاجتماعي تطوير أنظمة قادرة على الاعتراف بهذا المحتوى تلقائيا.بصرف النظر عن بعض الاستثناءات البارزة، فإن معظم الأبحاث حول تحديد اللغة الهجومية التلقائية تعامل مع اللغة الإنجليزية.لمعالجة هذا القصور، نقدم العفن، مجموعة بيانات اللغة المهاراتية الهجومية.القالب هو أول مجموعة بيانات من نوعها مترجمة للأمراثي، مما يفتح مجالا جديدا للبحث في لغات Indo-Arian منخفضة الموارد.نقدم النتائج من العديد من تجارب التعلم الآلي على هذه البيانات، بما في ذلك تجارب التعلم الصفر القصيرة وغيرها من عمليات التعلم على المحولات عبر اللغات الحديثة من البيانات الحالية في البنغالية والإنجليزية والهندية.
توفر Argeddings Word عبر اللغات طريقة للمعلومات التي سيتم نقلها بين اللغات.في هذه الورقة، نقيم امتدادا لنهج تدريب مشترك لتعلم التضامن المتبادل الذي يتضمن معلومات الفرعية أثناء التدريب.قد تكون هذه الطريقة مناسبة بشكل خاص لأنها لغات منخفضة الموارد ولغا ت غنية بالمظورة لأنه يمكن تدريبها على سورانيا أحادية الحجم متواضعة، وهي قادرة على تمثيل الكلمات الخارجية (OOVS).نحن نعتبر تحديي المعجم الثنائي اللغة، بما في ذلك التقييم يركز على OOVs.نجد أن هذه الطريقة تحقق تحسينات حول النهج السابقة، لا سيما بالنسبة إلى OOVS.
إن التقاط معنى كلمة في السياق والتمييز بين المراسلات والاختلافات عبر اللغات هو مفتاح بناء نماذج تمثيل نصية متعددة اللغات والنجاح. ومع ذلك، فإن مجموعات بيانات التقييم المتعددة اللغات الحالية التي تقيم الدلالات المعجمية في السياق "لها قيود مختلفة. على وجه الخصوص، 1) تقتصر تغطيتها اللغوية على لغات الموارد العالية والانحساج لصالح سوى عدد قليل من الأسر والمناطق اللغوية، 2) تصميم يجعل المهمة قابلة للحل عبر الإشارات السطحية، والتي تؤدي إلى تضخم بشكل مصطنع (وأحيانا سوبر -Human) عروض التشفير المحددين، و 3) لا يوجد دعم للتقييم المتبادل اللغوي. من أجل معالجة هذه الثغرات، نقدم AM2ICO (المعنى الخصومة والتعدد اللغات في السياق)، مجموعة التقييم الواسع التغطية واللغات متعددة اللغات؛ يهدف إلى تقييم إدراج قدرة نماذج التمثيل الحديثة (SOTA) لفهم هوية معنى الكلمات في السياقات المتبادلة لمدة 14 أزواج لغوية. نقوم بإجراء سلسلة من التجارب في مجموعة واسعة من الإعدادات وإظهار الطبيعة الصعبة ل AM2ICO. تكشف النتائج أن تشفير سوتا الحالية التي يتعامل معها يتخلف بشكل كبير وراء الأداء البشري، ويتم ملاحظة أكبر فجوات لغات الموارد المنخفضة ولغات مختلفة عن اللغة الإنجليزية.
في هذا العمل، نحقق في أساليب المهمة الصعبة المتمثلة في الترجمة بين أزواج لغة الموارد المنخفضة التي تظهر بعض مستوى التشابه.على وجه الخصوص، نعتبر فائدة نقل التعلم للترجمة بين العديد من لغات الموارد المنخفضة الأوروبية من الهند من الأسر الجرمانية والروما نسية.على وجه الخصوص، نبني اثنين من الطبقات الرئيسية من النظم القائمة على النقل لدراسة كيفية استخدام ترابط الأداء الترجمة.النظام الأساسي يضم النموذج الذي تم تدريبه مسبقا على زوج لغة ذات صلة ونظام قابل للتناقض بشكل جيد-قم بإلغاء التدريب مسبقا على زوج لغة غير ذات صلة.تبين تجاربنا أنه على الرغم من أن المرتبطة ليست ضرورية لنقل التعلم للعمل، إلا أنها تنفذ أداء نموذجي.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا