ترغب بنشر مسار تعليمي؟ اضغط هنا

التمثيل اللاإرصي اللغوي من تشفير الجملة متعددة اللغات لتقدير التشابه عبر اللغات

Language-agnostic Representation from Multilingual Sentence Encoders for Cross-lingual Similarity Estimation

434   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

نقترح طريقة لتقطير معنى المعنى اللاإرادي للغات من تشفير الجملة متعددة اللغات.عن طريق إزالة المعلومات الخاصة باللغة من التضمين الأصلي، نسترجع التضمين الذي يمثله بشكل كامل معنى الجملة.تعتمد الطريقة المقترحة فقط على Corpora الموازي دون أي شروح بشرية.يتيح Edgedding المعنى لدينا تقدير تشابه تشابه التشابه من خلال حساب التشابه الجيبائي البسيط.النتائج التجريبية على حد كلا تقدير الجودة للترجمة الآلية ومهام التشابه النصي من الدلالات المتبادلة - أن طريقتنا تتفوق باستمرار على خطوط الأساس القوية باستخدام التضمين الأصلي متعدد اللغات.تعمل طريقتنا باستمرار على تحسين أداء أي تشفير جملة متعددة اللغات المدربة مسبقا، حتى في أزواج لغة الموارد المنخفضة حيث تتوفر عشرات الآلاف فقط من أزواج الجملة بالتوازي.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

قياس درجة التشابه بين زوج من الجمل بلغات مختلفة هو المطلوبة الأساسية لأساليب تضمين الجملة متعددة اللغات. يتكون التنبؤ بدرجة التشابه من مهمتين فرعيتين، وهو تقييم التغلب غير المباشر واسترجاع الجملة متعددة اللغات. ومع ذلك، فإن الأساليب التقليدية قد تناو لت أساسا واحدة فقط من المهام الفرعية، وبالتالي أظهرت عروضا متحيزا. في هذه الورقة، نقترح طريقة جديدة وطريقة قوية لتضمين الجملة متعددة اللغات، مما يدل على تحسين الأداء على كلا المهام الفرعية، وبالتالي مما يؤدي إلى تنبؤات قوية لدرجات التشابه متعددة اللغات. تتكون الطريقة المقترحة من جزأين: لتعلم التشابه الدلالي من الجمل في اللغة المحورية، ثم تمديد الهيكل الدلالي المستفاد لغات مختلفة. لمحاذاة الهياكل الدلالية عبر لغات مختلفة، نقدم شبكة مدرس وطالب. تقطير شبكة المعلم معرفة اللغة المحورية لغات مختلفة من شبكة الطلاب. أثناء التقطير، يتم تحديث معلمات شبكة المعلم مع المتوسط ​​البطيء المتحرك. جنبا إلى جنب مع التقطير وتحديث المعلمة، يمكن محاذاة الهيكل الدلالي لشبكة الطالب مباشرة عبر لغات مختلفة مع الحفاظ على القدرة على قياس التشابه الدلالي. وبالتالي، فإن طريقة التدريب متعددة اللغات تدفع تحسين الأداء في تقييم التشابه متعدد اللغات. يحقق النموذج المقترح أداء الحديث في تقييم التشابه متعدد اللغات لعام 2017 بالإضافة إلى مهام فرعية، التي تمتد التقييم المتشابهات لأول مرة 2017 و Tatoeba متعددة اللغات متعددة اللغات في 14 لغة.
أظهرت مؤخرا تقنيات محاذاة المستندات بناء على تمثيلات جملة متعددة اللغات في مؤخرا حالة النتائج الفنية.ومع ذلك، تعتمد هذه التقنيات على تقنيات قياس المسافة غير المزعجة، والتي لا يمكن تغريمها بالمهمة في متناول اليد.في هذه الورقة، بدلا من تقنيات قياس المس افة غير المركبات هذه، فإننا نوظف التعلم المتري لاستخلاص قياسات المسافة الخاصة بالمهام.يتم إشراف هذه القياسات، مما يعني أن متري قياس المسافة يتم تدريبه باستخدام مجموعة بيانات متوازية.باستخدام مجموعة بيانات تنتمي إلى اللغة الإنجليزية، سنهالا، والتاميل، والتي تنتمي إلى ثلاث أسر لغوية مختلفة، نظهر أن مقاييس التعلم الخاصة بمهام المهام التي أشرفت على الفعالة تفوقت نظرائهم غير المعروضين، لمحاذاة المستندات.
تقدير أنظمة التشابه الدلالي النصي (STS) درجة تشابه معنى بين جملتين.تقدر أنظمة STS عبر اللغات درجة تشابه معنى بين جملتين، كل منها بلغة مختلفة.عادة ما تستخدم الخوارزميات الحديثة عادة نهجا بالغضب بشدة، يصعب استخدامه لغات ضعف الموارد.ومع ذلك، يحتاج أي نه ج للحصول على بيانات التقييم لتأكيد النتائج.من أجل تبسيط عملية التقييم لغات ضعف الموارد (من حيث مجموعات بيانات تقييم STS)، نقدم مجموعات بيانات جديدة ل STS عبر اللغات والأحمر غير المباشر لغات دون بيانات التقييم هذه.نقدم أيضا نتائج العديد من الطرق الحديثة على هذه البيانات التي يمكن استخدامها كأساس للحصول على مزيد من البحث.نعتقد أن هذه المقالة لن تمد فقط أبحاث STS الحالية فقط إلى لغات أخرى، ولكنها ستشجع أيضا المنافسة على هذه بيانات التقييم الجديدة.
أظهرت الدراسات الحديثة أن النماذج المتبادلة المدربة مسبقا تحقق أداء مثير للإعجاب في المهام المتقاطعة المتبادلة. يستفيد هذا التحسن من تعلم كمية كبيرة من مونوللقي والموازيات. على الرغم من أنه من المعترف به عموما أن شركة فورانيا الموازية أمر بالغ الأهمي ة لتحسين الأداء النموذجي، فإن الأساليب الحالية غالبا ما تكون مقيدة بحجم Corpora المتوازي، خاصة لغات الموارد المنخفضة. في هذه الورقة، نقترح Ernie-M، وهي طريقة تدريب جديدة تشجع النموذج على محاذاة تمثيل لغات متعددة مع شركة أحادية الأحادية، للتغلب على القيد أن أماكن حجم Corpus الموازي على الأداء النموذجي. إن رؤيتنا الرئيسية هي دمج الترجمة الخلفي في عملية التدريب المسبق. نحن نولد أزواج جملة زائفة بالموازاة على كائن أحادي مونولينغ لتمكين تعلم المحاذاات الدلالية بين لغات مختلفة، وبالتالي تعزيز النمذجة الدلالية للنماذج المتبقية. تظهر النتائج التجريبية أن Ernie-M يتفوق على النماذج الحالية عبر اللغات الحالية ويوفر نتائج حالة جديدة من بين الفنين في مختلف مهام المصب عبر اللغات. سيتم إجراء الرموز والنماذج المدربة مسبقا متاحة للجمهور.
تقوم هذه الدراسات الورقية بالتحويل عبر اللغات الصفرية إلى نماذج لغة الرؤية. على وجه التحديد، نركز على البحث عن نص متعدد اللغات والفيديو واقتراح نموذجا يستند إلى المحولات التي تتعلم أن تضمينات السياق متعددة اللغات متعددة اللغات. تحت إعداد طلقة صفرية، نوضح تجريبيا أن الأداء يتحلل بشكل كبير عند الاستعلام عن نموذج الفيديو النصي متعدد اللغات مع جمل غير إنجليزية. لمعالجة هذه المشكلة، نقدم استراتيجية متعددة الاستخدامات متعددة الاستخدامات متعددة اللغات، وجمع مجموعة بيانات تعليمية متعددة اللغات متعددة اللغات (متعدد HOWTO100M) للتدريب المسبق. تشير التجارب في VTT إلى أن طريقتنا تعمل بشكل كبير على تحسين البحث عن الفيديو في اللغات غير الإنجليزية دون شروح إضافية. علاوة على ذلك، عند توفر التعليقات التوضيحية متعددة اللغات، تتفوقت طريقة لدينا على خطوط الأساس الحديثة بواسطة هامش كبير في البحث عن نص متعدد اللغات للفيديو على VTT و Vatex؛ وكذلك في البحث النص متعدد اللغات إلى الصورة على multi30k. يتوفر نموذجنا ومتعدد HOWTO100M على http://github.com/berniebear/multi-ht100m.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا