ترغب بنشر مسار تعليمي؟ اضغط هنا

على التحويل عبر اللغات من التشريح بالمعنى السياقي

On the Cross-lingual Transferability of Contextualized Sense Embeddings

280   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في هذه الورقة، نقوم بتحليل المدى الذي يتطلع إليه المعنى السياقي، أي شعور بمعنى تم حسابه على أساس مدمج الكلمات السياقية، قابلة للتحويل عبر اللغات. في هذه الغاية، جمعنا معيارا موحدا عبر اللغات ل Disambiguation Sense.بعد ذلك نقترح استراتيجيتين بسيطة لنقل المعرفة الخاصة بالمعنى بالمعنى بين اللغات واختبرها على النتائج المعدية-portform unolingual تمثيلات mernessnfrom البيانات الخاصة باللغة الحالية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تم تطبيق نهج التعلم العميقة الخاضعة للإشراف على مربع الحوار الموجه في المهام وأثبت أنها فعالة لتطبيقات المجال واللغة المحدودة عند توفر عدد كاف من الأمثلة التدريبية. في الممارسة العملية، تعاني هذه الأساليب من عيوب التصميم الذي يحركه المجال ولغات أقل م ن الموارد. من المفترض أن تنمو نماذج المجال واللغة وتتغير مع تطور مساحة المشكلة. من ناحية، أظهرت الأبحاث حول تعلم التعلم القدرة المتبادلة من النماذج القائمة على المحولات متعددة اللغات لتعلم تمثيلات غنية بالدليل. من ناحية أخرى، بالإضافة إلى الأساليب المذكورة أعلاه، مكنت التعلم التلوي تطوير خوارزميات التعلم المهمة واللغة القادرة على تعميم البعيد. من خلال هذا السياق، تقترح هذه المقالة التحقيق في التحويل عبر اللغات المتبادلة باستخدام التعلم القليل من التآزر مع الشبكات العصبية النموذجية والنماذج القائمة على المحولات متعددة اللغات. تجارب في مجال التفاهم الطبيعي فهم المهام على Multiatis + Corpus يدل على أن نهجنا يحسن بشكل كبير من العروض التعليمية الملحقة بالتنقل بين لغات الموارد المنخفضة والعالية. بشكل عام، تؤكد نهجنا بشكل عام أن المساحة الكامنة ذات الأغلب المستفادة في لغة معينة يمكن تعميمها للتسامح غير المرئي وغير الموارد باستخدام التعلم التلوي.
تصف تصفية البيانات للترجمة الآلية (MT) مهمة تحديد مجموعة فرعية من Corpus المعطى، ربما صاخبة مع الهدف لزيادة أداء نظام MT الذي تم تدريبه على هذه البيانات المحددة. على مر السنين، تم اقتراح العديد من نهج الترشيح المختلفة. ومع ذلك، فإن تعريفات المهام الم ختلفة وظروف البيانات تجعل من الصعب رسم مقارنة ذات مغزى. في العمل الحالي، نهدف إلى نهج أكثر منهجية للمهمة في متناول اليد. أولا، نقوم بتحليل أداء تحديد اللغة، وهي أداة تستخدم عادة لتصفية البيانات في مجتمع MT وتحديد نقاط الضعف المحددة. بناء على النتائج التي توصلنا إليها، نقترح بعد ذلك العديد من أساليب رواية لتصفية البيانات، استنادا إلى Argeddings Word عبر اللغات. قارنا مناهجنا إلى إحدى الطرق الفائزة من المهمة المشتركة ل WMT 2018 على تصفية Corpus الموازية على ثلاث مهام حقيقية عالية الموارد MT. نجد الطريقة المذكورة المذكورة، والتي كانت تؤدي قوية للغاية في المهمة المشتركة WMT، لا تؤدي بشكل جيد خلال ظروف مهمتنا الأكثر واقعية. بينما نجد أن نهجنا تخرج في الجزء العلوي من المهام الثلاثة، فإن المتغيرات المختلفة تؤدي أفضل مهام مختلفة. تشير تجارب أخرى على المهمة المشتركة لعاملة WMT 2020 للتصفية الشديدة الموازية أن أساليبنا تحقق نتائج مماثلة لأقوى التقديمات لهذه الحملة.
تم الآن إنشاء أن نماذج اللغة العصبية الحديثة يمكن تدريبها بنجاح على لغات متعددة في وقت واحد دون تغييرات على الهندسة المعمارية الأساسية، وتوفير طريقة سهلة لتكييف مجموعة متنوعة من نماذج NLP لغات الموارد المنخفضة.ولكن ما نوع المعرفة المشتركة حقا بين الل غات داخل هذه النماذج؟هل يؤدي التدريب المتعدد اللغات في الغالب إلى محاذاة مساحات التمثيل المعجمية أو هل تمكن أيضا تقاسم المعرفة النحوية بحتة؟في هذه الورقة، نشرج أشكال مختلفة من التحويل المتبادل والبحث عن عواملها الأكثر تحديدا، باستخدام مجموعة متنوعة من النماذج والمهام التحقيق.نجد أن تعريض LMS لدينا بلغة ذات صلة لا تؤدي دائما إلى زيادة المعرفة النحوية في اللغة المستهدفة، وأن الظروف المثلى للنقل الدلالي المعجمي قد لا تكون الأمثل للتحويل النحوي.
نجحت شبكات الخصومة الإندنية (GANS) في تحفيز Adgeddings Word عبر اللغات - خرائط من الكلمات المتطابقة عبر اللغات - دون إشراف.على الرغم من هذه النجاحات، فإن أداء GANS الخاص بالحالة الصعبة للغات البعيدة لا يزال غير مرض.تم تفسير هذه القيود من قبل قوات الق يم "افتراض غير صحيح" أن المصدر والمساحات المستهدفة تضم ذات الصلة من خلال تعيين خطي واحد ويقبل Isomorphic تقريبا.ونحن نفترض بدلا من ذلك، خاصة عبر اللغات البعيدة، فإن التعيين هو مجرد خطي بقطعة حكيمة، ويقترح طريقة التعلم المتعددة الخصوم.هذه الطريقة الرواية تحفز القاموس البذور عبر اللغات من خلال تعيينات متعددة، كل منها مستحث لتناسب التعيين مقابل مساحة فرعية واحدة.تجاربنا على تحريض المعجم الثنائي الثنائي الثنائي البغي وتصنيف المستندات عبر اللغات تظهر أن هذه الطريقة تعمل على تحسين الأداء على أساليب رسم الخرائط الفردية السابقة، خاصة للغات البعيدة.
التعبيرات الاصطلاحية المحتملة (الفطائر) غامضة بين التفسيرات الاصطلاحية غير المركزة والتفسيرات الحرفية الشفافة. على سبيل المثال، اضغط على الطريق "" يمكن أن يكون له معنى اصطلاحي يقابل بدء رحلة "أو لديك تفسير حرفي. في هذه الورقة، نقترح نموذجا للإشراف عل ى أساس تضمينات السياق للتنبؤ بما إذا كانت تهدف الفطائر هي اصطلاحي أو حرفي. نحن نفكر في تجارب أحادية اللغة باللغتين الإنجليزية والروسية، وتظهر أن النموذج المقترح يتفوق على النهج السابقة، بما في ذلك في حالة اختبار النموذج على حالات أنواع فطيرة لم يلاحظ أثناء التدريب. ثم نفكر في تجارب عبر اللغات التي يتم فيها تدريب النموذج على حالات فطيرة بلغة أو الإنجليزية أو الروسية، واختبارها على اللغة الأخرى. نجد أن النموذج يتفوق على خطوط الأساس في هذا الإعداد. تشير هذه النتائج إلى أن المدينات السياقية قادرة على تعلم التمثيلات التي ترميز معرفة الاصطلاحية غير المقصورة على تعبيرات محددة، ولا لغة محددة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا