ترغب بنشر مسار تعليمي؟ اضغط هنا

التحويل الصفر - اللطاحي هو خط أساس صلب للتغلب على الكتابة الكيانية الجميلة الألمانية

Zero-Shot Cross-Lingual Transfer is a Hard Baseline to Beat in German Fine-Grained Entity Typing

395   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

غالبا ما يتطلب تدريب نماذج NLP كميات كبيرة من بيانات التدريب المسمى، مما يجعل من الصعب توسيع النماذج الحالية لغات جديدة.في حين تعتمد Transfer-Transfer عبر اللغات الصفرية على تضييق كلمة متعددة اللغات لتطبيق نموذج تدرب على لغة واحدة لآخر، فإن Yarowski و Ngai (2001) يقترح طريقة الإسقاط التوضيحي لتوليد بيانات التدريب دون شرح يدوي.تم استخدام هذه الطريقة بنجاح مهام التعرف على الكيان المسمى وكتابة الكيان الخشن الخشبي، لكننا نظهر أنه من غير متوقع من قبل النقل الصفرية عبر اللغات عند تطبيقها على مهمة مماثلة لكتابة الكيان المحبوس.في دراستنا لطبقتها الجميلة للكتابة من نوع الغش في علم الأطباق الألمانية بالنسبة للألمانية، نظهر أن الإسقاط التوضيحي يضخم ميل النموذج الإنجليزي إلى تسميات المستوى 2 المستويات والضرب عن طريق النقل الصفرية عبر اللغات على ثلاثة مجموعات اختبار رواية.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحليل المدونات الصغيرة حيث ننشر ما نقوم بتمكيننا من أداء تطبيقات مختلفة مثل تحليل الاتجاه الاجتماعي وتوصية الكيان. لتتبع الاتجاهات الناشئة في مجموعة متنوعة من المجالات، نريد تصنيف المعلومات عن الكيانات الناشئة (على سبيل المثال، الصورة الرمزية 2) في م نشورات المدونات الصغيرة وفقا لأنواعها (على سبيل المثال، فيلم). وبالتالي، فإننا نقدم مهمة جديدة للكتابة كيان تقوم بتعيين نوعا غرامة على كل كيان ناشئ عند إجراء انفجار من المشاركات التي تحتوي على هذا الكيان لأول مرة في المدونات الصغيرة. التحدي هو إجراء الكتابة من منشورات المدونات الصغيرة الصاخبة دون الاعتماد على المعرفة السابقة للكيان المستهدف. لمعالجة هذه المهمة، نبني مجموعات بيانات Twitter واسعة النطاق للغة الإنجليزية واليابانية باستخدام الإشراف البعيد الحساسة للوقت. ثم نقترح نموذج الكتابة العصبي المعياري الذي لا ينفدي فقط الكيان وسياقاته ولكن أيضا معلومات المعتوه في مشاركات متعددة. لكتابة الكيانات الناشئة "الكتاني" تعني لغة البرمجة الناشئة ولعبة الألواح الكلاسيكية)، والسياقات الكلاسيكية صاخبة، ونطير محدد سياق يجد سياقات ذات صلة للكيان الهدف. تؤكد التجارب على مجموعات البيانات Twitter فعالية نموذج الكتابة لدينا ومنح السياق.
تستند نهج كتابة الكيانات التقليدية إلى نماذج تصنيف مستقلة، مما يجعلها من الصعب التعرف على أنواع الكيان المعتمدة والذات طويل الذيل والحبوب. في هذه الورقة، نجادل بأن التبعيات الخارجية والمترنوية المتطودة ضمنيا بين الملصقات يمكن أن توفر معرفة حاسمة لمعا لجة التحديات المذكورة أعلاه. تحقيقا لهذه الغاية، نقترح شبكة تسمية الملصقات (LRN)، والتي الأسباب التسلل تسميات الكيانات الجميلة من خلال اكتشاف واستغلال المعرفة التبعيات الملصقات المتاحة في البيانات. على وجه التحديد، تستخدم LRN شبكة التراجع التلقائي لإجراء منطق استنتاجي ورسم رسمي من السمة الحيوية لإجراء منطق حثي بين الملصقات، والتي يمكن أن تكفذ بشكل فعال، وتعلم وسبب تبعيات التسمية المعقدة في مجموعة تسلسل إلى مجموعة، ونهاية إلى نهاية وبعد تظهر التجارب أن LRN تحقق الأداء الحديثة على معايير كيانات كيانات فائقة الفيرلة القياسية، ويمكن أيضا حل مشكلة تسمية الذيل الطويل بشكل فعال.
يعمل العمل الحالي على كتابة كيان غرامة (FET) عادة النماذج التلقائية على مجموعات البيانات التي تم الحصول عليها باستخدام قواعد المعرفة (KB) كشراف بعيد.ومع ذلك، فإن الاعتماد على KB يعني أنه يمكن إعاقة هذا الإعداد التدريبي من خلال عدم وجود أو عدم انتظام KB.لتخفيف هذا القيد، نقترح إعدادا جديدا لتدريب نماذج FET: FET دون الوصول إلى أي قاعدة معارف.بموجب هذا الإعداد، نقترح إطار من خطوتين لتدريب نماذج FET.في الخطوة الأولى، نقوم تلقائيا بإنشاء بيانات زائفة مع ملصقات ممتعة من مجموعة بيانات كبيرة غير مسبوقة.ثم يتم تدريب نموذج شبكة عصبي بناء على البيانات الزائفة، إما بطريقة غير مخالفة أو استخدام التدريب الذاتي بموجب الإرشادات الضعيفة من نموذج التعرف على الكيان الحبيبة الخشنة (NER).تظهر النتائج التجريبية أن طريقتنا تحقق أداء تنافسي فيما يتعلق بالنماذج المدربة على مجموعات البيانات ذات الإشراف على KB الأصلي.
حققت نماذج متعددة اللغات المدربة مسبقا أداء ملحوظا على تعلم التحويل عبر اللغات.تم تدريب بعض النماذج متعددة اللغات مثل Mbert، مدربة مسبقا على Corpora غير المسبق، وبالتالي لا يمكن تضمين تضمينات لغات مختلفة في النماذج بشكل جيد للغاية.في هذه الورقة، نهدف إلى تحسين أداء نقل اللغات المتبادل الصفر عن طريق اقتراح مهمة تدريبية مسبقا تسمى نموذج محاذاة Word-Exchange (Weal)، والذي يستخدم معلومات المحاذاة الإحصائية كمعرفة مسبقة لتوجيه الكلمة عبر اللغاتتنبؤ.نحن نقيم نموذجنا في مهمة مهام الفهم لقراءة الجهاز متعدد اللغات ومهمة واجهة اللغة الطبيعية XNLI.تظهر النتائج أن Weam يمكن أن يحسن بشكل كبير من الأداء الصفر بالرصاص.
في تحليل التمثيل المعني المتبادل التجريدي (AMR)، يقوم الباحثون بتطوير النماذج التي تمارس طرزها من لغات مختلفة على الأمراض الأمريكية لالتقاط هياكلها الدلالية الأساسية: بالنظر إلى عقوبة بأي لغة، نهدف إلى التقاط المحتوى الدلالي الأساسي من خلال المفاهيم المتصلةأنواع متعددة من العلاقات الدلالية.الأساليب عادة ما تصل إلى بيانات التدريب الفضي الكبيرة لتعلم نموذج واحد قادر على مشروع الجمل غير الإنجليزية إلى AMRS.ومع ذلك، نجد أن خط الأساس البسيط يميل إلى التغاضي عنه: ترجمة الجمل إلى الإنجليزية وتستعرض AMR الخاص بهم مع محلل عمرو أحادي (ترجمة + تحليل، T + P).في هذه الورقة، نؤيد هذا الخط الأساسي البسيط من خطوتين، وتعزيزه بنظام NMT قوي ومحلل عمرو قوي.تظهر تجاربنا أن T + P يتفوق على نظام أحدث حديثة في جميع اللغات التي تم اختبارها: الألمانية والإيطالية والإسبانية وماندرين مع +14.6 و +12.6 و +14.3 ونقاط Smatch

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا