ترغب بنشر مسار تعليمي؟ اضغط هنا

مخليل التبعية عبر اللغات غير المتبادلة ل Xibe

Delexicalized Cross-lingual Dependency Parsing for Xibe

373   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

يتخلص يدويا على بنك Treebank هو تستغرق وقتا طويلا وكثيفة العمالة. نحن نقوم بإجراء تجارب تحليل التبعية عبر اللغات المتبادلة، حيث نربع المحلل المحلل على لغة واحدة واختبار لغتهم المستهدفة. كحالة الاختبار الخاصة بنا، نستخدم Xibe، لغة تجميل أقل من الموارد. نفترض أن اختيار لغة مرتبطة ارتباطا وثيقا لأن لغة المصدر ستوفر نتائج أفضل من الأقارب البعيدين. ومع ذلك، ليس من الواضح كيفية تحديد تلك اللغات ذات الصلة عن كثب. نحن نحقق في ثلاث طرق مختلفة: اختيار الأقرب من اللغة النموذجية، باستخدام Langrank، واختيار اللغة الأكثر مماثلة تعتمد على الحيرة. نقوم بتدريب نماذج تحليل اللغات المحددة باستخدام udify واختبار على أنواع مختلفة من بيانات Xibe. تظهر النتائج أن اللغات المختارة بناء على التصنيفات وعشرات الحيرة تتفوق على تلك المتوقعة من قبل Langrank؛ اليابانية هي لغة المصدر المثلى. عند تحديد لغة المصدر، فإن القرب من اللغة المستهدفة هو أكثر أهمية من أحجام التدريب الكبيرة. يتأثر التحليل أيضا بخلافات النوع، لكنها لها تأثير ضئيل طالما أن البيانات التدريبية على الأقل معقدة مثل الهدف.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

لقد أظهر العمل الحديث أن نماذج اللغة المحظورة غير المؤمنة تعلمت تمثيل مفاهيم تقلص البيانات من تباين اللغة والتي يمكن استخدامها لتحديد بيانات التدريب المستهدف بالمجال. تتوفر تسميات أنواع DataSet في كثير من الأحيان، ومع ذلك لا تزال غير مستكشفة إلى حد ك بير في الإعدادات عبر اللغات. نستفيد هذا النوع من البيانات الوصفية باعتباره إشارة إشرافية ضعيفة لتحديد البيانات المستهدف في تحليل التبعية الصفرية. على وجه التحديد، نقوم بتعيين معلومات النوع من Treebank-Level لمستوى الجملة على مستوى الجملة الدقيقة، بهدف تضخيم المعلومات المخزنة ضمنيا في تمثيلات سياقية غير مدفوعة غير المدعومة. نوضح أن هذا النوع قابل للاسترداد من المدينات السياقية متعددة اللغات وأنه يوفر إشارة فعالة لتحديد بيانات التدريب في السيناريوهات عبر اللغات والصفرية. بالنسبة إلى 12 لغة Low-Resource Treebanks، ستة منها اختبار فقط، فإن أساليبنا الخاصة النوعية تفوقها بشكل كبير خطوط الأساس التنافسية وكذلك الأساليب القائمة على التضمين الحديثة لتحديد البيانات. علاوة على ذلك، يوفر اختيار البيانات المستندة إلى النوع من النوعين نتائج جديدة من الفنادق الجديدة لمدة ثلاثة من هذه اللغات المستهدفة.
نجحت شبكات الخصومة الإندنية (GANS) في تحفيز Adgeddings Word عبر اللغات - خرائط من الكلمات المتطابقة عبر اللغات - دون إشراف.على الرغم من هذه النجاحات، فإن أداء GANS الخاص بالحالة الصعبة للغات البعيدة لا يزال غير مرض.تم تفسير هذه القيود من قبل قوات الق يم "افتراض غير صحيح" أن المصدر والمساحات المستهدفة تضم ذات الصلة من خلال تعيين خطي واحد ويقبل Isomorphic تقريبا.ونحن نفترض بدلا من ذلك، خاصة عبر اللغات البعيدة، فإن التعيين هو مجرد خطي بقطعة حكيمة، ويقترح طريقة التعلم المتعددة الخصوم.هذه الطريقة الرواية تحفز القاموس البذور عبر اللغات من خلال تعيينات متعددة، كل منها مستحث لتناسب التعيين مقابل مساحة فرعية واحدة.تجاربنا على تحريض المعجم الثنائي الثنائي الثنائي البغي وتصنيف المستندات عبر اللغات تظهر أن هذه الطريقة تعمل على تحسين الأداء على أساليب رسم الخرائط الفردية السابقة، خاصة للغات البعيدة.
وقد حافظت العلامات الدلالية المتعددة اللغات واللغات الدلالية (SRL) مؤخرا عن الاهتمام المتزايد لأن تقنيات تمثيل النص متعدد اللغات أصبحت أكثر فعالية ومتاحة على نطاق واسع. في حين أن العمل الحديث قد حقق النجاح المتزايد، فإن النتائج على معايير الذهب متعدد ة اللغات لا تزال غير قابلة للمقارنة بسهولة عبر اللغات، مما يجعل من الصعب فهم حيث نقف. على سبيل المثال، في Conll-2009، تتأثر المقارنات القياسية لمعيار SRL متعدد اللغات، وهي مقارنات لغة إلى لغوية بحقيقة أن كل لغة لها مجموعة بيانات خاصة بها والتي تختلف عن الآخرين في الحجم والمجالات ومجموعات من التسميات والإرشادات التوضيحية. في هذه الورقة، نتعلم هذه المشكلة واقترح United-SRL، معيار جديد لعطلة SRL متعددة اللغات والتبادلة والاعتماد على التبعية. يوفر United-SRL شرحا متوازيا من الخبراء باستخدام مخزون هيكل الوسائد المشترك، مما يسمح بالمقارنات المباشرة عبر اللغات والدراسات المشجعة على النقل عبر اللغات في SRL. نقوم بإصدار United-SRL V1.0 في https://github.com/sapienzanlp/united-srl.
في تحليل التمثيل المعني المتبادل التجريدي (AMR)، يقوم الباحثون بتطوير النماذج التي تمارس طرزها من لغات مختلفة على الأمراض الأمريكية لالتقاط هياكلها الدلالية الأساسية: بالنظر إلى عقوبة بأي لغة، نهدف إلى التقاط المحتوى الدلالي الأساسي من خلال المفاهيم المتصلةأنواع متعددة من العلاقات الدلالية.الأساليب عادة ما تصل إلى بيانات التدريب الفضي الكبيرة لتعلم نموذج واحد قادر على مشروع الجمل غير الإنجليزية إلى AMRS.ومع ذلك، نجد أن خط الأساس البسيط يميل إلى التغاضي عنه: ترجمة الجمل إلى الإنجليزية وتستعرض AMR الخاص بهم مع محلل عمرو أحادي (ترجمة + تحليل، T + P).في هذه الورقة، نؤيد هذا الخط الأساسي البسيط من خطوتين، وتعزيزه بنظام NMT قوي ومحلل عمرو قوي.تظهر تجاربنا أن T + P يتفوق على نظام أحدث حديثة في جميع اللغات التي تم اختبارها: الألمانية والإيطالية والإسبانية وماندرين مع +14.6 و +12.6 و +14.3 ونقاط Smatch
نقترح هندسة محول الرسم البياني المتكرر للرسوم البيانية التلقائي (Rngtr) من أجل تحسين الرسوم البيانية التعسفية من خلال التطبيق العسكري لمحول الرسم البياني غير التلقائي إلى الرسم البياني وتطبيقه على تحليل التبعية النحوية.نوضح قوة وفعالية Rngtr على العد يد من شركات التبعية، باستخدام نموذج التقييم المدرب مسبقا مع بيرت.نقدم أيضا محولات محول النحوية (Sytr)، وهي محلل غير متكرر مشابهة لنموذج التقييم الخاص بنا.يمكن Rngtr تحسين دقة مجموعة متنوعة من المحللين الأوليين في 13 لغة من التبعيات الشاملة TreeBanks والإنجليزية والصينية Benn Treebanks، والجوربوس الألماني Conll2009، وحتى تحسين النتائج الجديدة على النتائج الجديدة التي حققتها Systr، بشكل كبيرتحسين أحدث حديثة لجميع الشركات التي تم اختبارها.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا