في هذه الورقة، نقترحنا بمحاذاة تمثيلات الجملة من لغات مختلفة إلى مساحة تضمين موحدة، حيث يمكن حساب أوجه التشابه الدلالي (كل من الصليب اللغوي والأونولينغ) بمنتج نقطة بسيطة.نماذج اللغة المدربة مسبقا صقلها بشكل جيد مع مهمة تصنيف الترجمة.يستخدم العمل الحالي (فنغ وآخرون.، 2020) جمل داخل الدفعة مثل السلبيات، والتي يمكن أن تعاني من مسألة السلبيات السهلة.نحن نتكيف مع MOCO (هو et al.، 2020) لمزيد من تحسين جودة المحاذاة.نظرا لأن النتائج التجريبية تظهر، فإن تمثيلات الجملة التي تنتجها نموذجنا لتحقيق أحدث الولاية الجديدة في العديد من المهام، بما في ذلك البحث عن التشابه التشابه TATOEBA EN-ZH (Artetxe Andschwenk، 2019b)، Bucc En-Zh BiteXTالتشابه النصي في 7 مجموعات البيانات.
In this paper, we propose to align sentence representations from different languages into a unified embedding space, where semantic similarities (both cross-lingual and monolingual) can be computed with a simple dot product. Pre-trained language models are fine-tuned with the translation ranking task. Existing work (Feng et al., 2020) uses sentences within the same batch as negatives, which can suffer from the issue of easy negatives. We adapt MoCo (He et al., 2020) to further improve the quality of alignment. As the experimental results show, the sentence representations produced by our model achieve the new state-of-the-art on several tasks, including Tatoeba en-zh similarity search (Artetxe andSchwenk, 2019b), BUCC en-zh bitext mining, and semantic textual similarity on 7 datasets.
المراجع المستخدمة
https://aclanthology.org/
ندرس مشكلة جديدة في التعلم عبر التحويلات المتبادلة لحدث القرار (ECR) حيث يتم تكييف النماذج المدربة على البيانات من لغة مصدر للتقييمات باللغات المستهدفة المختلفة. نقدم النموذج الأساسي الأول لهذه المهمة بناء على نموذج لغة XLM-Roberta، وهو نموذج لغوي مت
أظهرت الدراسات الحديثة أن النماذج المتبادلة المدربة مسبقا تحقق أداء مثير للإعجاب في المهام المتقاطعة المتبادلة. يستفيد هذا التحسن من تعلم كمية كبيرة من مونوللقي والموازيات. على الرغم من أنه من المعترف به عموما أن شركة فورانيا الموازية أمر بالغ الأهمي
نحن ندرس مشكلة استخراج وسيطة الأحداث عبر اللغات (CEAE). تهدف المهمة إلى التنبؤ بأدوار حجة من يذكر الأحداث في النص، والتي تختلف لغتها عن اللغة التي تم تدريبها على نموذج تنبؤي. أظهر العمل السابق على CEAE الفوائد المتبادلة لأشجار الاعتماد الشامل في التق
نقترح طريقة لتقطير معنى المعنى اللاإرادي للغات من تشفير الجملة متعددة اللغات.عن طريق إزالة المعلومات الخاصة باللغة من التضمين الأصلي، نسترجع التضمين الذي يمثله بشكل كامل معنى الجملة.تعتمد الطريقة المقترحة فقط على Corpora الموازي دون أي شروح بشرية.يتي
لقد أظهرت الأدوات الحديثة الأخيرة أن نماذج تعلم الرسم البياني المعرفي (KG) عرضة للغاية للهجمات الخصومة.ومع ذلك، لا تزال هناك ندرة من تحليلات الضعف لمحاذاة الكيان المتبادلة تحت هجمات الخصومة.تقترح هذه الورقة نموذج هجوم مخدر مع تقنيات هجومين جديدة لإشر