ترغب بنشر مسار تعليمي؟ اضغط هنا

تعلم تمثيلات عبر اللغات لتحليل Aquerence الحدث مع محاذاة متعددة الرؤية والنقل الأمثل

Learning Cross-lingual Representations for Event Coreference Resolution with Multi-view Alignment and Optimal Transport

389   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

ندرس مشكلة جديدة في التعلم عبر التحويلات المتبادلة لحدث القرار (ECR) حيث يتم تكييف النماذج المدربة على البيانات من لغة مصدر للتقييمات باللغات المستهدفة المختلفة. نقدم النموذج الأساسي الأول لهذه المهمة بناء على نموذج لغة XLM-Roberta، وهو نموذج لغوي متعدد اللغات مسبقا. نحن نستكشف أيضا الشبكات العصبية اللغوية اللغوية (LANN) التي تتولى التمييز بين النصوص من المصدر واللغات المستهدفة لتحسين تعميم اللغة ل ECR. بالإضافة إلى ذلك، نقدم آليتين رواية لتعزيز التعلم التمثيلي العام ل LANN، والتي تتميز بما يلي: (1) محاذاة متعددة الرؤية لمعاقبة محاذاة التسمية العاصمة من Aquerence من الأمثلة في المصدر واللغات المستهدفة، و (2) النقل الأمثل إلى حدد أمثلة وثيقة في المصدر واللغات المستهدفة لتوفير إشارات تدريبية أفضل لتمييز اللغة. أخيرا، نقوم بإجراء تجارب مكثفة ل ECR عبر اللغات من الإنجليزية إلى الإسبانية والصينية لإظهار فعالية الأساليب المقترحة.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في هذه الورقة، نقترحنا بمحاذاة تمثيلات الجملة من لغات مختلفة إلى مساحة تضمين موحدة، حيث يمكن حساب أوجه التشابه الدلالي (كل من الصليب اللغوي والأونولينغ) بمنتج نقطة بسيطة.نماذج اللغة المدربة مسبقا صقلها بشكل جيد مع مهمة تصنيف الترجمة.يستخدم العمل الحا لي (فنغ وآخرون.، 2020) جمل داخل الدفعة مثل السلبيات، والتي يمكن أن تعاني من مسألة السلبيات السهلة.نحن نتكيف مع MOCO (هو et al.، 2020) لمزيد من تحسين جودة المحاذاة.نظرا لأن النتائج التجريبية تظهر، فإن تمثيلات الجملة التي تنتجها نموذجنا لتحقيق أحدث الولاية الجديدة في العديد من المهام، بما في ذلك البحث عن التشابه التشابه TATOEBA EN-ZH (Artetxe Andschwenk، 2019b)، Bucc En-Zh BiteXTالتشابه النصي في 7 مجموعات البيانات.
اقترحت الدراسات الحديثة طرق مختلفة لتحسين تمثيلات الكلمات متعددة اللغات في الإعدادات السياقية بما في ذلك التقنيات التي تتماشى بين المساحات المصدر والهدف المستهدف.بالنسبة للمشروعات السياقية، تصبح المحاذاة أكثر تعقيدا كما نستفيد إلى السياق بالإضافة إلى ذلك.في هذا العمل، نقترح استخدام النقل الأمثل (OT) كهدف محاذاة أثناء ضبط الدقيقة لزيادة تحسين تمثيلات محاكية متعددة اللغات للتحويل المتبادل عبر اللغات.لا يتطلب هذا النهج أزواج محاذاة Word قبل ضبط الرصيف الذي قد يؤدي إلى مطابقة فرعية مثالية ويتعلم بدلا من محاذاة الكلمة في السياق بطريقة غير منشأة.كما يسمح أيضا بأنواع مختلفة من التعيينات بسبب مطابقة ناعمة بين الجمل المستهدفة.نقوم بتقييم طريقةنا المقترحة على مهمتين (XNLI و Xquad) وتحقيق تحسينات على أساس الأساسيات وكذلك نتائج تنافسية مقارنة بأعمال مؤخرا مماثلة.
أصبحت نماذج اللغة متعددة اللغات المحددة مسبقا أداة شائعة في تحويل قدرات NLP إلى لغات الموارد المنخفضة، وغالبا مع التعديلات.في هذا العمل، ندرس أداء، قابلية القابلية للضغط، والتفاعل بين اثنين من هذه التكيفات: تكبير المفردات وتروية النصوص.تقييماتنا حول العلامات بين الكلام، تحليل التبعية الشامل، والاعتراف الكياري المسمى في تسعة لغات متنوعة منخفضة الموارد تدعم صلاحية هذه الأساليب مع رفع أسئلة جديدة حول كيفية تكييف النماذج متعددة اللغات على النحو الأمثل إلى إعدادات الموارد المنخفضة.
نحن نعتبر مشكلة تعلم إصلاح برامج ج خاطئة عن طريق تعلم المحاذاة المثلى مع البرامج الصحيحة. نظرا لأن الأساليب السابقة إصلاح خطأ واحد في السطر، فمن المحتمل أنه لا مفر منه لتكرار عملية التثبيت حتى لا تبقى أخطاء. في هذا العمل، نقترح إطارا تعليمي تسلسل تسل سل جديد لتحديد أخطاء برنامج متعددة في وقت واحد. نقدم نهج وضع العلامات على البيانات المسافة من المسافة لتصحيح خطأ البرنامج. بدلا من وصف مثال إصلاح البرنامج عن طريق إقران برنامج خاطئ مع إصلاح خط، نعلم المثال عن طريق تحديد برنامج خاطئ مع محاذاة مثالية إلى البرنامج الصحيح المقابل الناتج عن حساب التحرير المسافة. نقيم نهجنا المقترح في مجموعة بيانات متاحة للجمهور (Deepfix DataSet) التي تتكون من برامج C الخاطئة المقدمة من طلاب البرمجة المبتدئين. على مجموعة من 6،975 برنامجا خاطئا من بيانات DataSet Deepfix، فإن نهجنا يحقق النتيجة الحديثة من حيث معدل الإصلاح الكامل على DeepFix DataSet (بدون بيانات إضافية مثل رسالة خطأ التحويل البرمجي أو رموز مصدر إضافية مسبقا -تمرين).
لقد أظهرت الأدوات الحديثة الأخيرة أن نماذج تعلم الرسم البياني المعرفي (KG) عرضة للغاية للهجمات الخصومة.ومع ذلك، لا تزال هناك ندرة من تحليلات الضعف لمحاذاة الكيان المتبادلة تحت هجمات الخصومة.تقترح هذه الورقة نموذج هجوم مخدر مع تقنيات هجومين جديدة لإشر اض هيكل كجم وتدلل جودة محاذاة الكيان المتبادلة العميقة.أولا، يتم استخدام طريقة تعظيم كثافة الكيان لإخفاء الكيانات المهاجمة في المناطق الكثيفة في كلكتين، بحيث تكون الاضطرابات المشتقة غير ملحوظة.ثانيا، تم تطوير طريقة تضخيم إشارة الهجوم لتقليل مشاكل التلاشي التجريبية في عملية الهجمات الخصومة لمزيد من تحسين فعالية الهجوم.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا