ترغب بنشر مسار تعليمي؟ اضغط هنا

صهر الذهب والفضة لتحسين الجيل متعدد اللغات AMR إلى النص

Smelting Gold and Silver for Improved Multilingual AMR-to-Text Generation

138   0   0   0.0 ( 0 )
 تاريخ النشر 2021
  مجال البحث الذكاء الاصناعي
والبحث باللغة English
 تمت اﻹضافة من قبل Shamra Editor




اسأل ChatGPT حول البحث

وقد ركز العمل الحديث على الجيل العام متعدد اللغات من AMR إلى النص بشكل حصري على استراتيجيات تكبير البيانات التي تستخدم AMR الفضي.ومع ذلك، فإن هذا يفترض جودة عالية من الأمراض العامية التي تم إنشاؤها، مما يحتمل على الحد من قابلية النقل إلى المهمة المستهدفة.في هذه الورقة، نحقق في تقنيات مختلفة لتوليد التعليقات التوضيحية AMR تلقائيا، حيث نهدف إلى دراسة مصدر المعلومات الذي ينتج عنه نتائج متعددة اللغات بشكل أفضل.نماذجنا المدربة على الذهب القديمة مع الجمل الفضية (مترجمة) الجمل تفوقت النهج التي تولدها Silver AMR.نجد أن الجمع بين كل من المصادر التكميلية للمعلومات تعمل على تحسين جيل عام عمرو متعدد اللغات.تتجاوز نماذجنا الحالة السابقة للفن الألمانية والإيطالية والإسبانية والصينية من هامش كبير.

المراجع المستخدمة
https://aclanthology.org/
قيم البحث

اقرأ أيضاً

نحن نحفز واقتراح مجموعة من التحسينات البسيطة ولكنها فعالة لتوليد مفهوم إلى نص يسمى الياقوت: تعيين تعزز وبصورة ما بعد هوك تستلزم وإعادة التركيب.نوضح فعاليتها في مجال المنطق المنطقي الإنتاجية، A.K.a. مهمة Commongen، من خلال تجارب باستخدام نماذج BART و T5.من خلال التقييم التلقائي والبشري الواسع، نعرض أن الياقوت يحسن بشكل ملحوظ أداء النموذج.يوضح التحليل النوعي المتعمق أن الياقوت يتناول بفعالية العديد من القضايا من الأجيال النموذجية الأساسية، بما في ذلك قلة المنطقية وغير كافية من الخصوصية والطلاقة الفقراء.
مقاييس التقييم التلقائية المستندة إلى المرجعية محدودة بشكل ملحوظ ل NLG بسبب عدم قدرتها على التقاط مجموعة كاملة من النواتج المحتملة.نحن ندرس بديلا للإشارة: تقييم كفاية الرسوم البيانية من جمل اللغة الإنجليزية التي تم إنشاؤها من الرسوم البيانية التمثيل المعنى التجريدي (AMR) عن طريق التحليل في عمرو ومقارنة التحليل مباشرة إلى المدخلات.نجد أن الأخطاء التي أدخلتها تحليل عمرو التلقائي تقيص بشكل كبير من فعالية هذا النهج، ولكن دراسة تحرير يدوية تشير إلى أنه نظرا لأن التحليل يحسن، فإن التقييم القائم على التحلل يحتوي على إمكانية تفوق معظم المقاييس المرجعية.
الهند هي واحدة من أغنى مراكز اللغات على الأرض وهي متنوعة للغاية وتعدد اللغات. ولكن بصرف النظر عن عدد قليل من اللغات الهندية، ما زال معظمهم يعتبرون فقراء الموارد. نظرا لأن معظم تقنيات NLP تتطلب معرفة لغوية لا يمكن تطويرها إلا من قبل الخبراء والمتحدثين الأصليين في هذه اللغة أو أنها تتطلب الكثير من البيانات المسمى باهظة الثمن مرة أخرى لتوليد، فإن مهمة تصنيف النص تصبح تحديا لمعظم الهندي اللغات. الهدف الرئيسي من هذه الورقة هو معرفة كيف يمكن للمرء الاستفادة من التشابه المعجمي الموجود باللغات الهندية في سيناريو متعدد اللغات. هل يمكن إعادة استخدام نموذج تصنيف مدرب على لغة هندية واحدة لغات هندية أخرى؟ لذا، أجرينا تصنيف نصي بالرصاص عن طريق استغلال التشابه المعجمي وملاحظ أن طرازنا ينفذ بشكل أفضل في تلك الحالات حيث يتداخل المفردات بين مجموعات البيانات اللغوية كحد أقصى. تؤكد تجاربنا أيضا أن نموذجا واحدا متعدد اللغات مدرب عبر رابط استغلال اللغة يتفوق على الأساس من الهوامش الهامة.
إن محول نقل النص إلى النص الأخير "'(T5) عند الاستفادة من تنسيق نصي إلى نص موحد ومقياس لتحقيق النتائج الحديثة على مجموعة واسعة من مهام NLP باللغة الإنجليزية.في هذه الورقة، نقدم MT5، وهو متغير متعدد اللغات من T5 الذي تم تدريبه مسبقا على مجموعة بيانات ج ديدة تستند إلى الزواحف تغطي 101 لغات.نحن تفصل على التصميم والتدريب المعدل ل MT5 وإظهار أدائه من أحدث المعايير متعددة اللغات.وصف أيضا تقنية بسيطة لمنع الترجمة العرضية "في إعداد الطلقة الصفرية، حيث يختار طراز عام (جزئيا) تنبؤه بلغة خاطئة.جميع الكود ونقاط التفتيش النموذجية المستخدمة في هذا العمل متاحة للجمهور.
تفتقر إلى البيانات المشروحة غير المشروح بين الإنسان هي تحدي رئيسي واحد لتحليل تمثيل المعنى التجريدي (AMR). لتخفيف هذه المشكلة، عادة ما تستخدم الأعمال السابقة البيانات الفضية أو نماذج اللغة المدربة مسبقا. على وجه الخصوص. ومع ذلك، فإنه يجعل فك تشفير أب طأ نسبيا. في هذا العمل، نحقق مناهج بديلة لتحقيق أداء تنافسي بسرعات أسرع. نقترح محلل عمرو المبسط وتقنية تدريب مسبقة الاستخدام للاستخدام الفعال للبيانات الفضية. نقوم بإجراء تجارب مكثفة على مجموعة بيانات AMR2.0 المستخدمة على نطاق واسع وتظهرت النتائج أن محلل عمرو المحولات لدينا يحقق أفضل أداء بين النماذج المستندة إلى SEQ2Graph. علاوة على ذلك، مع البيانات الفضية، يحقق نموذجنا نتائج تنافسية مع نموذج SOTA، والسرعة هي أمر ذو حجم أسرع. تتم التحليلات التفصيلية للحصول على المزيد من الأفكار في نموذجنا المقترح وفعالية تقنية التدريب المسبق.

الأسئلة المقترحة

التعليقات
جاري جلب التعليقات جاري جلب التعليقات
سجل دخول لتتمكن من متابعة معايير البحث التي قمت باختيارها
mircosoft-partner

هل ترغب بارسال اشعارات عن اخر التحديثات في شمرا-اكاديميا