ترغب بنشر مسار تعليمي؟ اضغط هنا

تصنيف الاختلافات في أزواج عمرو عبر اللغات

Classifying Divergences in Cross-lingual AMR Pairs

227   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

تختلف عمليات الاختلافات والنهج الواسع النطاق، والتحديات التي تعتمد على النص الموازي.للتعليق على اختلافات الترجمة، نقترح مخططا مؤرجا في تمثيل المعنى التجريدي (AMR)، وهي إطار جلالي على مستوى الجملة مثيل لعدد من اللغات.من خلال مقارنة الرسم البياني الأمريكي الموازي، يمكننا تحديد نقاط مختلفة من الاختلاف.يتم تصنيف كل اختلاف مع كل من النوع والسبب.نطلق سراح كائن صغير من البيانات الإنجليزية الإسبانية المشروح وتحليل التعليقات التوضيحية في Corpus.



المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

في تحليل التمثيل المعني المتبادل التجريدي (AMR)، يقوم الباحثون بتطوير النماذج التي تمارس طرزها من لغات مختلفة على الأمراض الأمريكية لالتقاط هياكلها الدلالية الأساسية: بالنظر إلى عقوبة بأي لغة، نهدف إلى التقاط المحتوى الدلالي الأساسي من خلال المفاهيم المتصلةأنواع متعددة من العلاقات الدلالية.الأساليب عادة ما تصل إلى بيانات التدريب الفضي الكبيرة لتعلم نموذج واحد قادر على مشروع الجمل غير الإنجليزية إلى AMRS.ومع ذلك، نجد أن خط الأساس البسيط يميل إلى التغاضي عنه: ترجمة الجمل إلى الإنجليزية وتستعرض AMR الخاص بهم مع محلل عمرو أحادي (ترجمة + تحليل، T + P).في هذه الورقة، نؤيد هذا الخط الأساسي البسيط من خطوتين، وتعزيزه بنظام NMT قوي ومحلل عمرو قوي.تظهر تجاربنا أن T + P يتفوق على نظام أحدث حديثة في جميع اللغات التي تم اختبارها: الألمانية والإيطالية والإسبانية وماندرين مع +14.6 و +12.6 و +14.3 ونقاط Smatch
حققت المحولات التي تم تدريبها مسبقا على شركة متعددة اللغات، مثل MBERT و XLM-ROBERTA، قدرات نقل متبقية مثيرة للإعجاب. في إعداد نقل الطلقة الصفرية، يتم استخدام بيانات التدريب الإنجليزية فقط، ويتم تقييم النموذج الدقيق على لغة مستهدفة أخرى. على الرغم من أن هذا يعمل بشكل جيد بشكل مدهش، فقد تمت ملاحظة تباين كبير في الأداء اللغوي المستهدف بين مختلف عمليات التشغيل الدقيقة، وفي إعداد الطلقة الصفرية، لا توجد بيانات تطوير اللغة المستهدفة متاحة للتحديد بين نماذج متعددة ذات الضبط. اعتمد العمل المسبق على بيانات Dev الإنجليزية لتحديد بين النماذج التي تم ضبطها بشكل جيد مع معدلات التعلم المختلفة وعدد الخطوات وغيرها من أنواع التشعبات، والتي غالبا ما تؤدي إلى اختيارات فرعية نفسها. في هذه الورقة، نوضح أنه من الممكن تحديد نماذج أفضل باستمرار عند توفر كميات صغيرة من البيانات المشروحة بلغات محورية إضافية. نقترح نهجا للتعلم الآلي للاختيار النموذجي الذي يستخدم التمثيلات الداخلية للأنظمة ذات الطراز الدقيق للتنبؤ بقدراتها المتبادلة. في تجارب شاملة، نجد أن هذه الطريقة تختار باستمرار نماذج أفضل من بيانات التحقق من صحة اللغة الإنجليزية عبر عشرين لغة (بما في ذلك 8 لغات منخفضة الموارد)، وغالبا ما تحقق النتائج التي تتميز باختيار نموذج باستخدام بيانات تطوير اللغة المستهدفة.
من الصعب معالجة وسائل التواصل الاجتماعي لأدوات معالجة اللغة الطبيعية القائمة، بسبب الأخطاء الإملائية، والكلمات غير القياسية، والتقصاصات، والرسملة غير القياسية وعلامات الترقيم.إحدى الطرق للتحايل على هذه المشكلات هي تطبيع بيانات الإدخال قبل المعالجة.رك زت معظم الأعمال السابقة بلغة واحدة فقط، والتي هي في الغالب الإنجليزية.في هذه الورقة، نحن أول من يقترح نموذجا للتطبيع المتبادل، الذي نشارك فيه في مهمة WNUT 2021 المشتركة.تحقيقا لهذه الغاية، نستخدم Monoise كنقطة انطلاق، وإجراء تكييف بسيط للتطبيق عبر اللغات.ينفأ النموذج الخاص بنا المقترح على خط الأساس في الإجازة التي يوفرها المنظمون الذين نسخ المدخلات.علاوة على ذلك، نستكشف نموذجا مختلفا تماما يحول المهمة إلى مهمة وضع علامة تسلسل.أداء هذا النظام الثاني منخفض، لأنه لا يأخذ القيمة في الاعتبار في تنفيذنا.
تم الآن إنشاء أن نماذج اللغة العصبية الحديثة يمكن تدريبها بنجاح على لغات متعددة في وقت واحد دون تغييرات على الهندسة المعمارية الأساسية، وتوفير طريقة سهلة لتكييف مجموعة متنوعة من نماذج NLP لغات الموارد المنخفضة.ولكن ما نوع المعرفة المشتركة حقا بين الل غات داخل هذه النماذج؟هل يؤدي التدريب المتعدد اللغات في الغالب إلى محاذاة مساحات التمثيل المعجمية أو هل تمكن أيضا تقاسم المعرفة النحوية بحتة؟في هذه الورقة، نشرج أشكال مختلفة من التحويل المتبادل والبحث عن عواملها الأكثر تحديدا، باستخدام مجموعة متنوعة من النماذج والمهام التحقيق.نجد أن تعريض LMS لدينا بلغة ذات صلة لا تؤدي دائما إلى زيادة المعرفة النحوية في اللغة المستهدفة، وأن الظروف المثلى للنقل الدلالي المعجمي قد لا تكون الأمثل للتحويل النحوي.
نحن ندرس تحليل عمرو متعدد اللغات من منظور تقطير المعرفة، حيث يكون الهدف هو تعلم وتحسين محلل عمرو متعدد اللغات باستخدام محلل إنجليزي موجود كمعلم لها.نحن تقيد استكشافنا في إعداد صارم متعدد اللغات: هناك نموذج واحد لتحليل جميع اللغات المختلفة بما في ذلك اللغة الإنجليزية.نحدد أن المدخلات الصاخبة والإخراج الدقيق هي مفتاح التقطير الناجح.جنبا إلى جنب مع التدريب المسبق الواسع، نحصل على محلل عمري الذي يتجنب عروضه جميع النتائج التي تم نشرها مسبقا على أربعة لغات أجنبية مختلفة، بما في ذلك الهوامش الألمانية والإسبانية والإيطالية والصينية، بواسطة هوامش كبيرة (تصل إلى 18.8 نقطة برائحة على الصينية وفي المتوسط 11.3نقاط smatch).يحقق محللنا أيضا أداء قابلا للمقارنة على اللغة الإنجليزية إلى أحدث المحللين باللغة الإنجليزية فقط.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا