أظهرت مؤخرا تقنيات محاذاة المستندات بناء على تمثيلات جملة متعددة اللغات في مؤخرا حالة النتائج الفنية.ومع ذلك، تعتمد هذه التقنيات على تقنيات قياس المسافة غير المزعجة، والتي لا يمكن تغريمها بالمهمة في متناول اليد.في هذه الورقة، بدلا من تقنيات قياس المسافة غير المركبات هذه، فإننا نوظف التعلم المتري لاستخلاص قياسات المسافة الخاصة بالمهام.يتم إشراف هذه القياسات، مما يعني أن متري قياس المسافة يتم تدريبه باستخدام مجموعة بيانات متوازية.باستخدام مجموعة بيانات تنتمي إلى اللغة الإنجليزية، سنهالا، والتاميل، والتي تنتمي إلى ثلاث أسر لغوية مختلفة، نظهر أن مقاييس التعلم الخاصة بمهام المهام التي أشرفت على الفعالة تفوقت نظرائهم غير المعروضين، لمحاذاة المستندات.
Document alignment techniques based on multilingual sentence representations have recently shown state of the art results. However, these techniques rely on unsupervised distance measurement techniques, which cannot be fined-tuned to the task at hand. In this paper, instead of these unsupervised distance measurement techniques, we employ Metric Learning to derive task-specific distance measurements. These measurements are supervised, meaning that the distance measurement metric is trained using a parallel dataset. Using a dataset belonging to English, Sinhala, and Tamil, which belong to three different language families, we show that these task-specific supervised distance learning metrics outperform their unsupervised counterparts, for document alignment.
المراجع المستخدمة
https://aclanthology.org/
قياس درجة التشابه بين زوج من الجمل بلغات مختلفة هو المطلوبة الأساسية لأساليب تضمين الجملة متعددة اللغات. يتكون التنبؤ بدرجة التشابه من مهمتين فرعيتين، وهو تقييم التغلب غير المباشر واسترجاع الجملة متعددة اللغات. ومع ذلك، فإن الأساليب التقليدية قد تناو
نقترح طريقة لتقطير معنى المعنى اللاإرادي للغات من تشفير الجملة متعددة اللغات.عن طريق إزالة المعلومات الخاصة باللغة من التضمين الأصلي، نسترجع التضمين الذي يمثله بشكل كامل معنى الجملة.تعتمد الطريقة المقترحة فقط على Corpora الموازي دون أي شروح بشرية.يتي
تهدف محاذاة الكيان (EA) إلى مطابقة الكيانات المكافئة عبر الرسوم البيانية المعرفة المختلفة (KGS) وهي خطوة أساسية من KG Fusion. الأساليب الرئيسية الحالية - نماذج عصام العصبية - تعتمد على التدريب مع محاذاة البذور، أي مجموعة من أزواج كيان ما قبل الانحياز
استخراج الأحداث على مستوى المستند أمر بالغ الأهمية لمختلف مهام معالجة اللغة الطبيعية لتوفير معلومات منظمة.النهج الحالية عن طريق النمذجة المتسلسلة إهمال الهياكل المنطقية المعقدة للنصوص الطويلة.في هذه الورقة، نستفيد بين تفاعلات الكيان وتفاعلات الجملة خ
عادة ما يتم تكليف الترجمة الآلية العصبية متعددة الموارد (MNMT) بتحسين أداء الترجمة على أزواج لغة واحدة أو أكثر بمساعدة أزواج لغة الموارد عالية الموارد.في هذه الورقة، نقترح اثنين من المناهج البحث البسيطة القائمة على البحث - طلب بيانات التدريب المتعدد