ترغب بنشر مسار تعليمي؟ اضغط هنا

ترجمة، ثم تحليل!خط أساس قوي لتخليص AMR عبر اللغات

Translate, then Parse! A Strong Baseline for Cross-Lingual AMR Parsing

409   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

في تحليل التمثيل المعني المتبادل التجريدي (AMR)، يقوم الباحثون بتطوير النماذج التي تمارس طرزها من لغات مختلفة على الأمراض الأمريكية لالتقاط هياكلها الدلالية الأساسية: بالنظر إلى عقوبة بأي لغة، نهدف إلى التقاط المحتوى الدلالي الأساسي من خلال المفاهيم المتصلةأنواع متعددة من العلاقات الدلالية.الأساليب عادة ما تصل إلى بيانات التدريب الفضي الكبيرة لتعلم نموذج واحد قادر على مشروع الجمل غير الإنجليزية إلى AMRS.ومع ذلك، نجد أن خط الأساس البسيط يميل إلى التغاضي عنه: ترجمة الجمل إلى الإنجليزية وتستعرض AMR الخاص بهم مع محلل عمرو أحادي (ترجمة + تحليل، T + P).في هذه الورقة، نؤيد هذا الخط الأساسي البسيط من خطوتين، وتعزيزه بنظام NMT قوي ومحلل عمرو قوي.تظهر تجاربنا أن T + P يتفوق على نظام أحدث حديثة في جميع اللغات التي تم اختبارها: الألمانية والإيطالية والإسبانية وماندرين مع +14.6 و +12.6 و +14.3 ونقاط Smatch



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

تحليل المعنويات المستندة إلى جانب الجسيم (ABASA)، تهدف إلى التنبؤ بأقطاب الجوانب، هي مهمة جيدة المحبوس في مجال تحليل المعنويات. وأظهر العمل السابق معلومات النحوية، على سبيل المثال أشجار التبعية، يمكن أن تحسن بشكل فعال أداء ABSA. في الآونة الأخيرة، أظ هرت النماذج المدربة مسبقا (PTMS) أيضا فعاليتها على ABAMA. لذلك، تنشأ السؤال بشكل طبيعي ما إذا كانت PTMs تحتوي على معلومات نصنية كافية ل ABAMA حتى نتمكن من الحصول على نموذج ABSA جيد فقط بناء على PTMS. في هذه الورقة، نقارن أولا الأشجار المستحثة من PTMS وأشجار تحليل التبعية في العديد من النماذج الشعبية لمهمة ABASA، والتي توضح أن الشجرة المستحقة من روبرتا الصعبة (FT-Roberta) تتفوق على الشجرة التي قدمتها المحلل المحاور. تكشف تجارب التحليل الإضافي أن شجرة FT-Roberta المستحقة أكثر من المعنويات - الموجهة إلى كلمة ويمكن أن تفيد مهمة ABASA. تشير التجارب أيضا إلى أن النموذج النقي المستند إلى روبرتا يمكن أن تفوق أو تقريب من عروض SOTA السابقة على ست مجموعات بيانات عبر أربع لغات لأنها تتضمن ضمنيا المعلومات الأساسية الموجهة نحو المهام.
لقد أظهر العمل الحديث أن نماذج اللغة المحظورة غير المؤمنة تعلمت تمثيل مفاهيم تقلص البيانات من تباين اللغة والتي يمكن استخدامها لتحديد بيانات التدريب المستهدف بالمجال. تتوفر تسميات أنواع DataSet في كثير من الأحيان، ومع ذلك لا تزال غير مستكشفة إلى حد ك بير في الإعدادات عبر اللغات. نستفيد هذا النوع من البيانات الوصفية باعتباره إشارة إشرافية ضعيفة لتحديد البيانات المستهدف في تحليل التبعية الصفرية. على وجه التحديد، نقوم بتعيين معلومات النوع من Treebank-Level لمستوى الجملة على مستوى الجملة الدقيقة، بهدف تضخيم المعلومات المخزنة ضمنيا في تمثيلات سياقية غير مدفوعة غير المدعومة. نوضح أن هذا النوع قابل للاسترداد من المدينات السياقية متعددة اللغات وأنه يوفر إشارة فعالة لتحديد بيانات التدريب في السيناريوهات عبر اللغات والصفرية. بالنسبة إلى 12 لغة Low-Resource Treebanks، ستة منها اختبار فقط، فإن أساليبنا الخاصة النوعية تفوقها بشكل كبير خطوط الأساس التنافسية وكذلك الأساليب القائمة على التضمين الحديثة لتحديد البيانات. علاوة على ذلك، يوفر اختيار البيانات المستندة إلى النوع من النوعين نتائج جديدة من الفنادق الجديدة لمدة ثلاثة من هذه اللغات المستهدفة.
تفتقر إلى البيانات المشروحة غير المشروح بين الإنسان هي تحدي رئيسي واحد لتحليل تمثيل المعنى التجريدي (AMR). لتخفيف هذه المشكلة، عادة ما تستخدم الأعمال السابقة البيانات الفضية أو نماذج اللغة المدربة مسبقا. على وجه الخصوص. ومع ذلك، فإنه يجعل فك تشفير أب طأ نسبيا. في هذا العمل، نحقق مناهج بديلة لتحقيق أداء تنافسي بسرعات أسرع. نقترح محلل عمرو المبسط وتقنية تدريب مسبقة الاستخدام للاستخدام الفعال للبيانات الفضية. نقوم بإجراء تجارب مكثفة على مجموعة بيانات AMR2.0 المستخدمة على نطاق واسع وتظهرت النتائج أن محلل عمرو المحولات لدينا يحقق أفضل أداء بين النماذج المستندة إلى SEQ2Graph. علاوة على ذلك، مع البيانات الفضية، يحقق نموذجنا نتائج تنافسية مع نموذج SOTA، والسرعة هي أمر ذو حجم أسرع. تتم التحليلات التفصيلية للحصول على المزيد من الأفكار في نموذجنا المقترح وفعالية تقنية التدريب المسبق.
تختلف عمليات الاختلافات والنهج الواسع النطاق، والتحديات التي تعتمد على النص الموازي.للتعليق على اختلافات الترجمة، نقترح مخططا مؤرجا في تمثيل المعنى التجريدي (AMR)، وهي إطار جلالي على مستوى الجملة مثيل لعدد من اللغات.من خلال مقارنة الرسم البياني الأمر يكي الموازي، يمكننا تحديد نقاط مختلفة من الاختلاف.يتم تصنيف كل اختلاف مع كل من النوع والسبب.نطلق سراح كائن صغير من البيانات الإنجليزية الإسبانية المشروح وتحليل التعليقات التوضيحية في Corpus.
يتخلص يدويا على بنك Treebank هو تستغرق وقتا طويلا وكثيفة العمالة. نحن نقوم بإجراء تجارب تحليل التبعية عبر اللغات المتبادلة، حيث نربع المحلل المحلل على لغة واحدة واختبار لغتهم المستهدفة. كحالة الاختبار الخاصة بنا، نستخدم Xibe، لغة تجميل أقل من الموارد . نفترض أن اختيار لغة مرتبطة ارتباطا وثيقا لأن لغة المصدر ستوفر نتائج أفضل من الأقارب البعيدين. ومع ذلك، ليس من الواضح كيفية تحديد تلك اللغات ذات الصلة عن كثب. نحن نحقق في ثلاث طرق مختلفة: اختيار الأقرب من اللغة النموذجية، باستخدام Langrank، واختيار اللغة الأكثر مماثلة تعتمد على الحيرة. نقوم بتدريب نماذج تحليل اللغات المحددة باستخدام udify واختبار على أنواع مختلفة من بيانات Xibe. تظهر النتائج أن اللغات المختارة بناء على التصنيفات وعشرات الحيرة تتفوق على تلك المتوقعة من قبل Langrank؛ اليابانية هي لغة المصدر المثلى. عند تحديد لغة المصدر، فإن القرب من اللغة المستهدفة هو أكثر أهمية من أحجام التدريب الكبيرة. يتأثر التحليل أيضا بخلافات النوع، لكنها لها تأثير ضئيل طالما أن البيانات التدريبية على الأقل معقدة مثل الهدف.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا