ترغب بنشر مسار تعليمي؟ اضغط هنا

تقييم نهج تدريب مشترك لتعلم Argeddings عبر اللغات مع معلومات الفرعية دون موازية كوربورا على لغات الموارد المنخفضة

Evaluating a Joint Training Approach for Learning Cross-lingual Embeddings with Sub-word Information without Parallel Corpora on Lower-resource Languages

271   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

توفر Argeddings Word عبر اللغات طريقة للمعلومات التي سيتم نقلها بين اللغات.في هذه الورقة، نقيم امتدادا لنهج تدريب مشترك لتعلم التضامن المتبادل الذي يتضمن معلومات الفرعية أثناء التدريب.قد تكون هذه الطريقة مناسبة بشكل خاص لأنها لغات منخفضة الموارد ولغات غنية بالمظورة لأنه يمكن تدريبها على سورانيا أحادية الحجم متواضعة، وهي قادرة على تمثيل الكلمات الخارجية (OOVS).نحن نعتبر تحديي المعجم الثنائي اللغة، بما في ذلك التقييم يركز على OOVs.نجد أن هذه الطريقة تحقق تحسينات حول النهج السابقة، لا سيما بالنسبة إلى OOVS.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نقترح نهجا جديدا لتعلم تضمين الكلمات المتبادلة عبر السياق بناء على كائن مواز صغير (E.G. بضع مئات من أزواج الجملة). تتمتع طريقتنا بدمج الكلمات عبر نموذج فك تشفير LSTM يترجم في وقت واحد وإعادة بناء جملة مدخلات. من خلال تقاسم المعلمات النموذجية بين لغات مختلفة، يدرك نموذجنا بشكل مشترك كلمة تضمين الكلمة في مساحة شائعة تبادل اللغات. نقترح أيضا الجمع بين وظائف الكلمة والكلمات الفرعية للاستفادة من أوجه التشابه الهجري عبر لغات مختلفة. نحن نؤدي تجاربنا على بيانات العالم الحقيقي من اللغات المهددة بالانقراض، وهي يونغينغ نا، Shipibo-Konibo، و Griko. تجاربنا على تحيزي المعجم الثنائي اللغة ومهام محاذاة الكلمات تظهر أن نموذجنا يفوق على الأساليب الحالية من قبل هامش كبير لمعظم أزواج اللغات. توضح هذه النتائج أنه على خلاف المعتقد الشائع، فإن نموذج الترجمة المشترك - ترميز الترميز مفيد لتعلم التمثيلات المتبادلة حتى في ظروف الموارد المنخفضة للغاية. علاوة على ذلك، يعمل نموذجنا أيضا بشكل جيد في ظروف الموارد العالية، وتحقيق الأداء الحديث في مهمة محاذاة الكلمة باللغة الألمانية.
إن التقاط معنى كلمة في السياق والتمييز بين المراسلات والاختلافات عبر اللغات هو مفتاح بناء نماذج تمثيل نصية متعددة اللغات والنجاح. ومع ذلك، فإن مجموعات بيانات التقييم المتعددة اللغات الحالية التي تقيم الدلالات المعجمية في السياق "لها قيود مختلفة. على وجه الخصوص، 1) تقتصر تغطيتها اللغوية على لغات الموارد العالية والانحساج لصالح سوى عدد قليل من الأسر والمناطق اللغوية، 2) تصميم يجعل المهمة قابلة للحل عبر الإشارات السطحية، والتي تؤدي إلى تضخم بشكل مصطنع (وأحيانا سوبر -Human) عروض التشفير المحددين، و 3) لا يوجد دعم للتقييم المتبادل اللغوي. من أجل معالجة هذه الثغرات، نقدم AM2ICO (المعنى الخصومة والتعدد اللغات في السياق)، مجموعة التقييم الواسع التغطية واللغات متعددة اللغات؛ يهدف إلى تقييم إدراج قدرة نماذج التمثيل الحديثة (SOTA) لفهم هوية معنى الكلمات في السياقات المتبادلة لمدة 14 أزواج لغوية. نقوم بإجراء سلسلة من التجارب في مجموعة واسعة من الإعدادات وإظهار الطبيعة الصعبة ل AM2ICO. تكشف النتائج أن تشفير سوتا الحالية التي يتعامل معها يتخلف بشكل كبير وراء الأداء البشري، ويتم ملاحظة أكبر فجوات لغات الموارد المنخفضة ولغات مختلفة عن اللغة الإنجليزية.
تحفز الوجود الواسع للغة الهجومية على وسائل التواصل الاجتماعي تطوير أنظمة قادرة على الاعتراف بهذا المحتوى تلقائيا.بصرف النظر عن بعض الاستثناءات البارزة، فإن معظم الأبحاث حول تحديد اللغة الهجومية التلقائية تعامل مع اللغة الإنجليزية.لمعالجة هذا القصور، نقدم العفن، مجموعة بيانات اللغة المهاراتية الهجومية.القالب هو أول مجموعة بيانات من نوعها مترجمة للأمراثي، مما يفتح مجالا جديدا للبحث في لغات Indo-Arian منخفضة الموارد.نقدم النتائج من العديد من تجارب التعلم الآلي على هذه البيانات، بما في ذلك تجارب التعلم الصفر القصيرة وغيرها من عمليات التعلم على المحولات عبر اللغات الحديثة من البيانات الحالية في البنغالية والإنجليزية والهندية.
نجحت شبكات الخصومة الإندنية (GANS) في تحفيز Adgeddings Word عبر اللغات - خرائط من الكلمات المتطابقة عبر اللغات - دون إشراف.على الرغم من هذه النجاحات، فإن أداء GANS الخاص بالحالة الصعبة للغات البعيدة لا يزال غير مرض.تم تفسير هذه القيود من قبل قوات الق يم "افتراض غير صحيح" أن المصدر والمساحات المستهدفة تضم ذات الصلة من خلال تعيين خطي واحد ويقبل Isomorphic تقريبا.ونحن نفترض بدلا من ذلك، خاصة عبر اللغات البعيدة، فإن التعيين هو مجرد خطي بقطعة حكيمة، ويقترح طريقة التعلم المتعددة الخصوم.هذه الطريقة الرواية تحفز القاموس البذور عبر اللغات من خلال تعيينات متعددة، كل منها مستحث لتناسب التعيين مقابل مساحة فرعية واحدة.تجاربنا على تحريض المعجم الثنائي الثنائي الثنائي البغي وتصنيف المستندات عبر اللغات تظهر أن هذه الطريقة تعمل على تحسين الأداء على أساليب رسم الخرائط الفردية السابقة، خاصة للغات البعيدة.
أثبتت تضيير Word عبر اللغات (CLWES) لا غنى عنها لمختلف مهام معالجة اللغة الطبيعية، على سبيل المثال، تحريض معجم ثنائي اللغة (BLI). ومع ذلك، فإن عدم وجود البيانات غالبا ما يضعف جودة التمثيلات. اقترحت النهج المختلفة التي تتطلب إشراف ضعيف متصلي فقط، لكن الأساليب الحالية لا تزال تفشل في تعلم الأسطر الجيدة لغات فقط من كائن أحادي الأحادي الصغيرة فقط. لذلك ندعي أنه من الضروري استكشاف المزيد من البيانات الخاصة بتحسين CLWES في إعدادات الموارد المنخفضة. في هذه الورقة نقترح دمج بيانات لغات الموارد ذات الصلة ذات الصلة. على النقيض من الأساليب السابقة التي تنفذ بشكل مستقل تدريبا مسبقا من أجل تضمين اللغات، فإننا (1) قطار القطار للموارد المنخفضة ولغة ذات صلة بالاشتراك و (2) تعيينها إلى اللغة المستهدفة لبناء الفضاء النهائي متعدد اللغات. في تجاربنا نركز على Occitan، وهي لغة رومانسية منخفضة الموارد التي غالبا ما يتم إهمالها بسبب نقص الموارد. نستفيد من البيانات من الفرنسية والإسبانية والكانتالانية للتدريب والتقييم في مهمة Occitan-English BLI. من خلال دمج اللغات الداعمة طريقتنا التي تتفوقت على النهج السابقة بهامش كبير. علاوة على ذلك، يوضح تحليلنا أن درجة الرعاية بين لغة مدمجة ولغة الموارد المنخفضة مهمة للغاية.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا