ترغب بنشر مسار تعليمي؟ اضغط هنا

التعلم متري في قياس التشابه الجملة متعددة اللغات لمحاذاة المستند

Metric Learning in Multilingual Sentence Similarity Measurement for Document Alignment

464   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

أظهرت مؤخرا تقنيات محاذاة المستندات بناء على تمثيلات جملة متعددة اللغات في مؤخرا حالة النتائج الفنية.ومع ذلك، تعتمد هذه التقنيات على تقنيات قياس المسافة غير المزعجة، والتي لا يمكن تغريمها بالمهمة في متناول اليد.في هذه الورقة، بدلا من تقنيات قياس المسافة غير المركبات هذه، فإننا نوظف التعلم المتري لاستخلاص قياسات المسافة الخاصة بالمهام.يتم إشراف هذه القياسات، مما يعني أن متري قياس المسافة يتم تدريبه باستخدام مجموعة بيانات متوازية.باستخدام مجموعة بيانات تنتمي إلى اللغة الإنجليزية، سنهالا، والتاميل، والتي تنتمي إلى ثلاث أسر لغوية مختلفة، نظهر أن مقاييس التعلم الخاصة بمهام المهام التي أشرفت على الفعالة تفوقت نظرائهم غير المعروضين، لمحاذاة المستندات.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

قياس درجة التشابه بين زوج من الجمل بلغات مختلفة هو المطلوبة الأساسية لأساليب تضمين الجملة متعددة اللغات. يتكون التنبؤ بدرجة التشابه من مهمتين فرعيتين، وهو تقييم التغلب غير المباشر واسترجاع الجملة متعددة اللغات. ومع ذلك، فإن الأساليب التقليدية قد تناو لت أساسا واحدة فقط من المهام الفرعية، وبالتالي أظهرت عروضا متحيزا. في هذه الورقة، نقترح طريقة جديدة وطريقة قوية لتضمين الجملة متعددة اللغات، مما يدل على تحسين الأداء على كلا المهام الفرعية، وبالتالي مما يؤدي إلى تنبؤات قوية لدرجات التشابه متعددة اللغات. تتكون الطريقة المقترحة من جزأين: لتعلم التشابه الدلالي من الجمل في اللغة المحورية، ثم تمديد الهيكل الدلالي المستفاد لغات مختلفة. لمحاذاة الهياكل الدلالية عبر لغات مختلفة، نقدم شبكة مدرس وطالب. تقطير شبكة المعلم معرفة اللغة المحورية لغات مختلفة من شبكة الطلاب. أثناء التقطير، يتم تحديث معلمات شبكة المعلم مع المتوسط ​​البطيء المتحرك. جنبا إلى جنب مع التقطير وتحديث المعلمة، يمكن محاذاة الهيكل الدلالي لشبكة الطالب مباشرة عبر لغات مختلفة مع الحفاظ على القدرة على قياس التشابه الدلالي. وبالتالي، فإن طريقة التدريب متعددة اللغات تدفع تحسين الأداء في تقييم التشابه متعدد اللغات. يحقق النموذج المقترح أداء الحديث في تقييم التشابه متعدد اللغات لعام 2017 بالإضافة إلى مهام فرعية، التي تمتد التقييم المتشابهات لأول مرة 2017 و Tatoeba متعددة اللغات متعددة اللغات في 14 لغة.
نقترح طريقة لتقطير معنى المعنى اللاإرادي للغات من تشفير الجملة متعددة اللغات.عن طريق إزالة المعلومات الخاصة باللغة من التضمين الأصلي، نسترجع التضمين الذي يمثله بشكل كامل معنى الجملة.تعتمد الطريقة المقترحة فقط على Corpora الموازي دون أي شروح بشرية.يتي ح Edgedding المعنى لدينا تقدير تشابه تشابه التشابه من خلال حساب التشابه الجيبائي البسيط.النتائج التجريبية على حد كلا تقدير الجودة للترجمة الآلية ومهام التشابه النصي من الدلالات المتبادلة - أن طريقتنا تتفوق باستمرار على خطوط الأساس القوية باستخدام التضمين الأصلي متعدد اللغات.تعمل طريقتنا باستمرار على تحسين أداء أي تشفير جملة متعددة اللغات المدربة مسبقا، حتى في أزواج لغة الموارد المنخفضة حيث تتوفر عشرات الآلاف فقط من أزواج الجملة بالتوازي.
تهدف محاذاة الكيان (EA) إلى مطابقة الكيانات المكافئة عبر الرسوم البيانية المعرفة المختلفة (KGS) وهي خطوة أساسية من KG Fusion. الأساليب الرئيسية الحالية - نماذج عصام العصبية - تعتمد على التدريب مع محاذاة البذور، أي مجموعة من أزواج كيان ما قبل الانحياز والتي تعد مكلفة للغاية للتعليق. في هذه الورقة، نركض إطارا للتعليم النشط الجديد (AL) من أجل EA العصبي، تهدف إلى إنشاء محاذاة بذرة مفيدة للغاية للحصول على نماذج EA أكثر فعالية مع تكلفة أقل تعلقا. يعالج إطارنا تحديين رئيسيتين واجههما عند تطبيق Alo EA: (1) كيفية استغلال التبعيات بين الكيانات داخل الإستراتيجية. تفترض معظم الاستراتيجيات أن مثيلات البيانات للعينة مستقلة وتوزيعها بشكل متطابقة. ومع ذلك، ترتبط الكيانات في كجم. لمعالجة هذا التحدي، نقترح استراتيجية أخذ العينات غير اليقين في الهيكل التي يمكن أن تقيس حالة عدم اليقين في كل كيان وتأثيرها على كياناته الجار في كجم. (2) كيفية التعرف على الكيانات التي تظهر في كجم واحد ولكن ليس في كجم آخر (I.E.، البكالوريوس). تحديد البكالوريوس من المرجح أن ينقذ ميزانية التعليق التوضيحي. لمعالجة هذا التحدي، نحن نضع المعرفة البكالوريوس يدفع الانتباه إلى تخفيف تأثير تحيز أخذ العينات. تظهر النتائج التجريبية أن استراتيجيتنا المقترحة يمكن أن تحسن بشكل كبير جودة أخذ العينات بعنادة جيدة عبر مجموعات البيانات المختلفة ونماذج EA ومبلغ البكالوريوس.
استخراج الأحداث على مستوى المستند أمر بالغ الأهمية لمختلف مهام معالجة اللغة الطبيعية لتوفير معلومات منظمة.النهج الحالية عن طريق النمذجة المتسلسلة إهمال الهياكل المنطقية المعقدة للنصوص الطويلة.في هذه الورقة، نستفيد بين تفاعلات الكيان وتفاعلات الجملة خ لال المستندات الطويلة وتحويل كل وثيقة إلى رسم بياني غير مرمى غير مسبهب من خلال استغلال العلاقة بين الجمل.نقدم مجتمع الجملة لتمثيل كل حدث كشركة فرعية.علاوة على ذلك.توضح التجارب أن إطارنا يحقق نتائج تنافسية على الأساليب الحديثة على مجموعة بيانات استخراج الأحداث على مستوى الوثيقة على نطاق واسع.
عادة ما يتم تكليف الترجمة الآلية العصبية متعددة الموارد (MNMT) بتحسين أداء الترجمة على أزواج لغة واحدة أو أكثر بمساعدة أزواج لغة الموارد عالية الموارد.في هذه الورقة، نقترح اثنين من المناهج البحث البسيطة القائمة على البحث - طلب بيانات التدريب المتعدد اللغات - والتي تساعد على تحسين أداء الترجمة بالاقتران مع التقنيات الحالية مثل الضبط الدقيق.بالإضافة إلى ذلك، نحاول تعلم منهجا من المناهج الدراسية من MNMT من الصفر بالاشتراك مع تدريب نظام الترجمة باستخدام قطاع الطرق متعددة الذراع السياقية.نعرض على مجموعة بيانات الترجمة المنخفضة من Flores التي يمكن أن توفر هذه المناهج المستفادة نقاطا أفضل للضبط وتحسين الأداء العام لنظام الترجمة.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا